
spark
光脚丫丫
这个作者很懒,什么都没留下…
展开
-
Spark SQL和DataFrame的学习总结
1、DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequ原创 2016-05-10 19:28:03 · 5880 阅读 · 0 评论 -
Spark MLlib学习(一)数据类型 Data Types
MLlib是spark的机器学习库,有常用学习算法和实用工具,包括分类、回归、聚类、协同过滤、降维等。分为两个部分: spark.mllib 基于RDDs的原有API spark.ml 提供了基于DataFrame的高水平API用于建立ML pipelines 推荐使用spark.ml(基于DataFrame的API更加多样化,更灵活),不过spark也持续支持spark原创 2016-05-11 18:41:53 · 2460 阅读 · 0 评论 -
Spark 集群与数据集RDD
Spark是一个分布式计算框架,对资源的调度,任务的提交跟踪、节点间的通信及数据并行处理的内在操作都进行了抽象。 四种运行模式: 本地单机模式:所有spark进程都运行在同一个JVM中 集群单机模式:使用spark内置的任务调度框架 基于Mesos:Mesos 是一个流行的开源集群计算框架 基于Yarn:hadoop2,一个与原创 2016-05-06 16:33:40 · 2570 阅读 · 0 评论