一:RDD相关知识
1.RDD特点:可持久化,可序列化,可分区。
2.对RDD进行分区的优点:增加并行度;减少通信开销。
3.RDD分区的一个原则是使分区的个数尽量等于集群中的CPU核心数目。
二:加载RDD(SparkContext简写为sc)
1.从文件系统中加载数据
file=sc.textFile("file://+文件的具体路径)
aq:从/home/hadoop/Downloads目录下加载数据dataset2.txt
2.从分布式文件系统中加载数据
file=sc.textFile("hdfs://localhost:9000+文件的具体路径)
3.通过并行集合(比如数组)创建RDD(通过调用parallelize方法在已知集合上创建RDD)
aq:将数组(1,2,3,4,5)转换为RDD