
Spark
文章平均质量分 77
小强的呼呼呼
机器学习爱好者
展开
-
RDD编程
1. RDD基础: Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(比如list 和se)。 例如:用SparkContent.textFile()来读取文本文件作为一个字符串RDD的示例:原创 2017-06-10 20:54:34 · 408 阅读 · 0 评论 -
键值对操作
键值对RDD 通常用来进行聚合计算。我们一般要先通过一些初始ETL(抽取、转化、装载)操作来将数据转化为键值对形式。键值对RDD 提供了一些新的操作接口(比如 统计每个产品的评论,将数据中键相同的分为一组,将两个不同的RDD 进行分组合并等)。 1. 创建Pair RDD 在Python 中使用第一个单词作为键创建出一个pair RDD pairs = lines.map(la原创 2017-06-11 21:58:45 · 633 阅读 · 0 评论