
Hadoop
谜失落的世界
这个作者很懒,什么都没留下…
展开
-
MR on Yarn
相关角色介绍ResourceManager 资源作业管理者 Applications Manager 作业管理,是所有作业的老大,web界面信息从这里查询Resource Scheduler 资源调度NodeManager 节点者ApplicationsMaster:某个job的老大,他来申请资源以及管理和监控整个作业生命周...原创 2019-12-16 15:04:48 · 226 阅读 · 0 评论 -
Yarn的生产参数调优
官网默认参数https://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xmlguan参数调优1.ContainerContainer就是Yarn中的一个动态资源分配的概念。其拥有一定的内存+核数(memory+vcore),由RM分配给ApplicationMaster或MapTask...原创 2019-12-15 01:03:30 · 595 阅读 · 0 评论 -
Hdfs读写流程(读进写出)
目录读数据写数据读数据1 Client调用FileSystem.open(filePath)方法,与NameNode进行【rpc】通信,返回该文件的部分或者全部的block列表,也就是返回FSDataInputStream对象。2 Client调用FSDataInputStream对象read()方法;a.与第一个块最近的DataNode进行read,读取完成后,会c...原创 2019-12-12 23:41:56 · 225 阅读 · 0 评论 -
大数据行式存储和列式存储比较
压缩率和压缩速度成反比:压缩比:bzip2 > gzip > lzo > snappy ,压缩速度:snappy > lzo> gzip > bzip2压缩以及解压是高消耗cpu的过程,故若机器的负载很高时就不能使用压缩,资源不够可通过扩容快速解决Hive中建表(列式+压缩)语句:(1)orc格式#Hive中默认压缩是zlib,写...原创 2019-10-27 11:56:54 · 686 阅读 · 0 评论 -
MR过程+shuffle过程
MapReduce的执行流程Shuffle过程Map的输出结果首先被缓存到内存,当环状缓冲区达到80% (默认大小为100MB),就会启动溢写(Spill)操作,当前启动溢写操作时,首先把缓存中的数据进行分区(partition。默认对key hash后再除以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力),对每个分区的数据进行排序和合并。之后再写入到...原创 2019-10-26 23:28:25 · 1098 阅读 · 0 评论 -
Hadoop压缩使用场景(从输入、输出和中间过程来考虑)
1、文本(Text)默认是支持分片的;什么是分片? 输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。分片的好处是能增加map的数量,提高并行度。...原创 2019-10-26 22:52:50 · 245 阅读 · 0 评论 -
修改Hadoop日志格式为json
1、如果是CDH版本的找到"NameNode Logging Advanced Configuration Snippet (Safety Valve)",配置log4j.appender.RFA.layout.ConversionPattern = {"time":"%d{yyyy-MM-dd HH:mm:ss,SSS}","logtype":"%p","loginfo":"%c:%m"...原创 2019-06-17 13:39:33 · 243 阅读 · 0 评论 -
Hadoop支持Lzo和分片
Hadoop支持Lzo和分片为了节省磁盘空间,文件的存储往往需要压缩,有的需要压缩比大,有的需要压缩速度快。而对于一套计算的结果存储,如多个MapReduce之间,需要能支持分片的压缩方式。lzop就是个可以支持分片的压缩方式,非常适合用于多个MapReduce之间的计算中间结果存储。在Hadoop上安装lzop与在hive上的使用,并且支持分片功能参考:https://segmentfau...原创 2019-05-18 10:25:10 · 471 阅读 · 0 评论