
spark
mumumuyanyanyan
我也想像大牛们
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark shuffle 小结
前面说到Hadoop的工作原理的时候,提到了shuffle 1.MapReduce和Spark中shuffle的区别 MapReduce:简单的理解就是将数据从不同的map通过网络传输拉取到同一一个reduce中进行处理,其中涉及到了大量的数据网络传输耗时以及内存磁盘IO耗时,因而是提高mapreduce关键所在。 Spark:spark会将我们的工作job拆...原创 2018-05-13 17:19:38 · 470 阅读 · 0 评论 -
Jupyter notebook运行Spark+Scala
今天在intellij调试spark的时候感觉每次有新的一段代码,都要重新跑一遍,如果用spark-shell,感觉也不是特别方便,如果能像python那样,使用jupyter notebook进行编程就很方便了,同时也适合代码展示,网上查了一下,试了一下,碰到了很多坑,有些是旧的版本,还有些是版本不同导致错误,这里就记录下来安装的过程。1.运行环境硬件:Mac事先装好:Jupyter n...原创 2018-04-29 23:42:20 · 8988 阅读 · 5 评论 -
RDD、DataFrame和DataSet的异同点
RDDDataFrameDataSet编译时类型安全 是否是面向对象编程风格是否,DataFrame也可以叫做Data[Row]中每一行是Row类型,不解析,里面的字段以及类型不得而知是支持sparksql操作不支持支持支持序列化与反序列化集群通信以及io都需要对对象以及数据进行序...原创 2018-05-23 22:08:24 · 434 阅读 · 0 评论