
spark
程序员小李的开发路
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark WordCount 执行流程图
combineByKey流程展示原创 2020-05-11 21:05:08 · 597 阅读 · 0 评论 -
Spark读取hdfs分片数据源码剖析
val lines: RDD[String] = sparkContext.textFile(args(0)) 我们通过 sparkContext.textFile来读取hdfs中某一数据 正常来说,应该是有几个文件就创建几个分区 然而我们dubug的时候发现,有时候3个文件却创建了4个分区 其实这是由于spark中对于hdfs分片数据拉取的源码 首先 我们在用testFile时,若不指定分区数量,则默认使用最小值=2 long goalSize = totalSize / (long)(num.原创 2020-05-11 21:03:38 · 702 阅读 · 0 评论 -
Spark RDD 分组统计案例
题目 1.在所有的老师中求出最受欢迎的老师Top3 2.求每个学科中最受欢迎老师的top3(至少用2到三种方式实现) 数据内容 http://bigdata.edu360.cn/laozhang http://bigdata.edu360.cn/laozhang http://bigdata.edu360.cn/laozhao http://bigdata.edu360.cn/laozhao http://bigdata.edu360.cn/laozhao http://bigdata.edu360.c.原创 2020-05-11 20:49:31 · 2906 阅读 · 0 评论