
spark
O白马非马O
IT菜鸟级民工
展开
-
SPARK官方实例:两种方法实现随机森林模型(ML/MLlib)
SPARK官方实例,两种方法实现随机森林原创 2017-05-31 17:26:24 · 5611 阅读 · 0 评论 -
Spark SQL中DataFrame API 的解析
collect, collectAsListcountfirstheadshowtakecacheColumnsdtypesexplainisLocalprintSchemaregisterTempTableschematoDFaggapplyasdistinctexceptexplodefiltergroupByintersectjoinlimit原创 2017-05-18 10:58:15 · 878 阅读 · 0 评论 -
Spark基本介绍和编译安装
Spark快如闪电的集群计算 是快速和通用的大规模数据处理技术【speed】 执行mr作业程序在内存比hadoop快100倍,磁盘上快10倍 spark有着DAG(有向无环图)执行引擎,支持离散数据流和内存计算【易于使用】 多种语言编写 Java scala python R【Generality】 合成SQL,流计算,复杂分析spark有自己的集群计算技术,扩展了hadoop mr模型原创 2017-05-14 12:12:55 · 439 阅读 · 0 评论 -
SPARK必备概念
RDD (resilient distributed dataset)弹性分布式数据集One stack to rule them all(一个技术堆栈容纳各种数据处理技术) 包括的大数据计算模型:MapReduce、Streaming、SQL、Machine Learning、graph Processing对应的Spark四大子框架:Spark Streaming,Spark SQL,Mlli原创 2017-05-09 17:18:54 · 516 阅读 · 0 评论 -
SPARK模型实例:两种方法实现随机森林模型(MLlib和ML)
SPARK模型实例,基于HiveSQL,实现随机森林模型的训练和预测原创 2017-06-02 17:34:18 · 4492 阅读 · 1 评论