Jupyter中使用TAB键加速输入
Jupyter中编写程序时,有函数提示功能。在Jupyter中编写Spark程序对RDD进行操作时,在输入.之后,可以按TAB键自动补全要输入的“转换”或“行动”。
例如:
输入 rdd = sc.pa之后,再按TAB键就能自动补全rdd= sc.parallelize。在eclipse环境中编写spark程序时,提示功能更好用。
将程序输出按指定的格式存储
Spark程序输出时一般是以(K,V)对的形式输出,有时候需要以特定形式(如:数据各列以空格分割)保存文件,那么就要对Spark输出格式做更改。
……
counts = lines.flatMap(lambda x: x.split(' ')) \
.map(lambda x: (x, 1)) \
.reduceByKey(add)
.map(lambda x:x[0]+' '+str(x[1])).saveAsTextFile("result.txt")#将文件各字段以空格隔开
Python中RDD编程实例
Student文件:
yang 85 90 30
wang 20 60 50
zhang 90 90 100
zhang 90 90 100
li 100 54 0
li 100 54 0
yanf 0 0 0
def map_func(x):
s = x.split()
return (s[0],[int(s[1]),int(s[2]),int(s[3])])
def has100(x):

本文总结了在Jupyter环境中使用Python与Spark编程的经验,包括利用Jupyter的TAB键自动补全功能加速输入,如何将Spark程序的输出按指定格式存储,以及给出了Python中处理RDD的实例。
最低0.47元/天 解锁文章
1249

被折叠的 条评论
为什么被折叠?



