
Hadoop
文章平均质量分 89
Hadoop 相关技术积累
夏橙、
这个作者很懒,什么都没留下…
展开
-
MR优化总结
优化前1.熟知业务要求2.熟知数据分布状态(是否倾斜、是否是多个小文件等),可以使用采样来了解数据通用型优化策略1.文件存储格式使用更加优化的格式的文件,例如Parquet、ORC,综合来说,ORC最优。2.文件压缩可以在mr各阶段启用压缩,例如:数据块可以被压缩(reduce输出可以被压缩)、map输出数据可以被压缩(减少shuffle过程中传输的数据量)3.shuffle优化...原创 2018-12-10 19:43:54 · 2184 阅读 · 0 评论 -
7种进程名称及作用
namenode :主要是用来保存HDFS的元数据信息,比如命名空间信息,块信息等。2台,一台active,一台standby.会与zkfc通信,一旦某台namenode当掉,zkfc会与zookeeper进行通信,立即启动standby的namenode.datanode:1Data Node以数据块的形式存储HDFS文件2Data Node 响应HDFS 客户端读写请求3Da...原创 2018-11-20 19:54:40 · 842 阅读 · 0 评论 -
MR大体流程图
此MR程序以wordcount为例1、数据准备:如图所示,在HDFS中有一个1G的文件,HDFS中的的默认分块的大小为256M,分别存储在HDFS中的四个块中。在文件被分成块之后,不会直接被mapreduce处理。而是先由FileInputFormat进行切片。2、在MR程序运行的过程中,会生成许多MapTask程序,MapTask的数量和“分片”的数量相同,一般来说,每个分片都有一个MapT...原创 2018-12-10 19:37:50 · 1184 阅读 · 0 评论 -
YARN
YARN概念Yet Another Resource Negotiator(好吧,另一种资源协调者),作业调度和集群资源管理的框架HDFS&YARN进程通讯模型YARN程序执行流程ResourceManager有两个主要组件:Scheduler和ApplicationsManager。调度程序负责根据熟悉的容量,队列等约束将资源分配给各种正在运行的应用程序。调度程序是纯调度程序...原创 2018-12-10 19:47:01 · 143 阅读 · 0 评论