
Spark
MLlotus
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark学习笔记(一):pySpark RDD编程
from pyspark import SparkContext,SparkConf#spark配置信息 注意实际工程中不会用硬编码sc = SparkContext("local", "context")'''RDD操作有两个方面:1.transformations: map filter groupby... 2.actions: reduce count collect....原创 2019-02-15 22:00:12 · 545 阅读 · 0 评论 -
Spark学习笔记(二):算子综合案例实战
一:word count词频统计from pyspark import SparkContext,SparkConfimport sysif __name__ == '__main__': ''' sys.argv: 实现从程序外部向程序传递参数,是一个列表 sys.argv[0]表示代码本身文件路径 sys.exit([arg]) 程序中途退出 arg = ...原创 2019-02-19 13:32:21 · 1723 阅读 · 2 评论 -
Spark学习笔记(三):Spark的工作原理
一.Performance 作者开篇就声明本书的一些方法并不适用所有情况。某些方法只在特定的数据量或者key分布有用。一个简单的例子是,当我们使用groupByKey时很容易就造成内存异常问题,但是对于一些有少量重复数据的情况,使用本书一些方法的效果比起使用这个算子,速度是一样的。所以理解数据结构,以及Spark如何与数据交互,是解决复杂问题的关键。二.How Spark ...原创 2019-05-14 15:39:17 · 261 阅读 · 0 评论