- 博客(3)
- 收藏
- 关注
原创 Flink-Task、SubTask、并行度
Task与SubTask一个算子就是一个Task. 一个算子的并行度是几,这个Task就有几个SubTask对应关系:算子=Task并行度=SubTasktask是抽象概念,subtask是物力概念Parallelism并行度默认并行度--cpu核数关键点不同的并行度(subtask),肯定在不同的slot,但也可能在不同的taskmanager一个流程序的并行度,可以认为就是其所有算子中算子并行度最大的并行度数据传输模式:One-to-one:.
2021-08-01 09:37:20
1133
原创 hadoop-HDFS数据读写及存储
读数据流程第一个块读完,再读第二个块读数据流程:1.创建文件对象2.利用文件对象创建输入流3.关闭资源public class HDFSClient { FileSystem fs = null; @Before public void before() throws URISyntaxException, IOException, InterruptedException { //创建连接对象 Configuration
2021-07-31 16:54:05
302
原创 hadoop的job提交流程
job提交流程(由客户端提交job)说明:上传的job.jab就是自己自定义的jar包,用来在yarn实现MAP和Reduce提交内容:1、jar包2、切片信息3、xml配置文件为什么要提交配置信息:job提交给yarn,生成appmaster,appmaster需要配置文件conf(job.xml)才能知道干什么1.job.waitForCompletion(true) //开始提交Job1.1 state == JobState.DEFINE //当前Job状态的判断,如果是run
2021-07-31 16:38:56
724
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人