1 RDD创建
RDD创建有两种形式,1:从外部读取数据源,外部可指本地系统、HDFS系统等;2:调用SparkContext的parallelize方法,在Driver中一个已经存在的集合(数组)上创建。
1.1 演示前提
启动hadoop和spark-shell
>>start-dfs.sh //启动hadoop
>>sprak-shell //启动spark
>>hadoop fs -copyFromLocal /home/hadoop/sample.txt input
//将本地文件上传到分布式系统
1.2 从文件系统中加载数据创建RDD
1.3 通过并行集合创建RDD
2 RDD操作
RDD操作一般为转换和行动操作,转换表示一种RDD转换为另一种RDD,行动表示在RDD上进行非修改性操作。
常用转换操作: | 说明 |
---|---|
filter(func) | 筛选出满足函数func的元素 |