1、sparkcontext
sc = SparkContext("local[2]","Simple App")
可以通过sc对象来创建和操作分布式数据集和共享变量。
2、RDD
rddFromTextFile = sc.textFile("License");
可以使用textfile方法返回RDD对象。该对象的每一条记录都是一个表示文本文件中某一行文字的字符串对象。
3、所有操作都被分为转换和执行两种
转换:对数据集里的所有记录执行某种函数,从而改变记录
执行:运行某些计算或聚合结果。