
大数据框架总结
longlovefilm
这个作者很懒,什么都没留下…
展开
-
Hive数据倾斜的原因及主要解决方法
数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类Hive倾斜之group by聚合倾斜原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当其中每一组的数据量过大时,会出现其他组的计算已经完成而这个reduce还没有计算完成,其他的节点一直等待这个节点的原创 2020-06-22 23:16:52 · 514 阅读 · 0 评论 -
hadoop mr + hive数据倾斜解决
数据倾斜是进行大数据计算时常见的问题。主要分为map端倾斜和reduce端倾斜,map端倾斜主要是因为输入文件大小不均匀导致,reduce端主要是partition不均匀导致。在hive中遇到数据倾斜的解决办法:一、倾斜原因:map端缓慢,输入数据文件多,大小不均匀当出现小文件过多,需要合并小文件。可以通过set hive.merge.mapfiles=true来解决。set hi...原创 2020-02-13 12:12:23 · 417 阅读 · 0 评论 -
Hbase流程框架
Hbase 总体框架注意点1 客户端如果是针对数据的增删改查(DML)那么不需要经过HMaster2 每一个store是一个文件夹,存储的是一个列族在这个regin下的数据;flush就会在hdfrs上store文件夹形成一个HFile文件,这样时间久了会有很多小文件,后面会有针对这些小文件的合并和split。3 Hlog操作日志是实时落盘的,真正的内存数据是flush时落盘HFi...原创 2020-02-12 14:37:25 · 177 阅读 · 0 评论 -
大数据框架总结
hdfs1 写数据流程2 HDFS读数据流程13 HDFS副本节点选择4 HDFS nn 2nn 镜像文件以及编辑日志的工作机制注意此类机制都是先更新编辑日志,再更新内存文件block元数据。checkpoint触发默认条件是一小时或者满足一百万条操作日志,肯定可以修改。5 HDFS datanode工作机制yarn1 整体架构图_1...原创 2020-02-10 16:49:20 · 599 阅读 · 0 评论