- 博客(6)
- 收藏
- 关注
原创 Spark源码解析4 - Shuffle过程分析
1.Shuffle过程 ShuffleMapTask -runTask *writer.write // 向磁盘上写文件 // 数据 >val partitionLengths = sorter.writePartitionedFile(blockId, tmp) // 索引 >shuffleBlockResolver.writeIndexFileAndCommit(dep.shuffleId, mapId, partitionLengths, tmp) 2
2020-09-10 23:48:48
171
原创 Spark源码解析3 - 提交Task到Executor
==提交Task到Executor= App->Job->Stage->Task 注:这里Driver、Executor已经都准备好了。 1.Driver端任务提交 org.apache.spark.scheduler.DAGScheduler --submitMissingTasks //每一个Task对应处理一个分区的数据,将多个Task放到TaskSet中进行提交 --taskScheduler.submitTasks(new TaskSet) //在Task之前,创建了T
2020-09-10 23:45:39
260
原创 Spark源码解析2 - Job以及任务调度过程
App->Job->Stage->Task 细节自己总结,分清各自数量与什么有关 此博客长期更新,感谢关注~ less is more
2020-09-10 23:38:43
205
原创 Spark源码解析1 - 将App部署到Yarn服务器
1.执行提交应用的命令 // An highlighted block bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ (client(默认) <=> cluster) ./examples/jars/spark-examples_2.11-2.4.5.jar \ 路径 10 \ 2.底层运行 bin/spark-class or
2020-09-10 23:34:58
168
原创 关于Maven乱码问题
Maven控制台出现乱码问题 idea通常设置为UTF-8,而Maven的默认平台编码是GBK,因此可以填入: -Dfile.encoding=GBK 注:这里若是UTF-8依然乱码 此博客长期更新,感谢关注~ less is more
2020-07-29 09:39:02
229
原创 hadoop各类问题综述——windows10下配置hadoop
1.org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0 这个是linux下的hadoop包在win10下不能兼容,编译源码又太费时,因此可以选择将下面这两个文件 1)hadoop.dll 放在C:\Windows\System32下 2)winutils.exe 放在win10 hadoop安装路径的bin目录下 重启eclipse,解决 (注:此文件win10 x64兼容,别的系统未测试) 下载连接:包含hadoop2.
2020-06-28 17:33:18
415
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅