
大数据
文章平均质量分 53
大数据相关技术栈
hmi1024
种树最好的两个时间,十年前和现在
展开
-
MapReduce执行流程(图解+注解)
MapReduce执行流程(图解+注解)原创 2022-07-06 16:11:37 · 2885 阅读 · 0 评论 -
HBase RowKey的设计原则
HBase RowKey的设计原则原创 2022-06-13 22:19:45 · 3271 阅读 · 0 评论 -
Flink 经典WordCount入门案例
FLlink 流批处理WordCount案例实现Flink 从文件读取数据实现WordCountFlink 从Socket读取数据WordCount原创 2022-04-21 15:35:49 · 2291 阅读 · 0 评论 -
Flink运行时架构及各部署模式下作业提交流程
1.运行时架构1.1 核心组件1.1.1 JobManager作业管理器,对于一个提交执行的作业,JobManager 是真正意义上的“管理者”(Master),负责管理调度,是一个 Flink 集群中任务管理和调度的核心,是控制应用执行的主进程。在不考虑高可用的情况下只能有一个JobManager ,只有一个是正在运行的领导节点(leader),其他都是备用节点(standby)JobManager包含三大核心组件:JobMasterJobMaster是JobManager的核心组件原创 2022-04-20 15:15:54 · 2138 阅读 · 0 评论 -
FLINK ON YARN 的三种部署方式
1.会话(session)模式特点:需要事先申请资源,启动JobManager 和 TaskManager优点:不需要每次递交作业申请资源,使用已有资源缺点:作业执行完成后,资源不会被释放,因此会一直占用系统资源使用场景:适合小作业比较多,作业递交比较频繁的场景作业方式:bin/yarn-session.sh -n 2 -tm 800 -s 1 -d #申请资源bin/flink run examples/batch/WordCount.jar #递交作业2.分离(per-job)模式原创 2022-04-19 15:04:38 · 1394 阅读 · 0 评论 -
MapReduce Map的个数分析
1.概述通常情况下,Map作业会通过input的目录产生一个或者多个map任务主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改)2.举例假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数假设input目录下有3个文件a,b,c大小分别为10m,30m,150m原创 2022-03-24 16:58:51 · 2729 阅读 · 0 评论