大数据
gddemon
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
每日积累
每日记忆汇总 Hive的优化 1)MapJoin 使用mapjoin 将小表全部加载到内存在map端进行join,避免reducer处理,因为reducer处理会产生大量的网络IO 2)行列过滤 列处理:尽量减少select * 的使用,使用分区过滤 行处理:进行外关联时,如果将副表的过滤条件写在where后面,就会先将全表关联,之后再过滤。 3)采用分桶 4)采用分区 5)合理设置map数 (1...原创 2019-10-09 23:36:17 · 318 阅读 · 0 评论 -
Hadoop的优化
每日积累 Hadoop的优化 HDFS的小文件的影响 (1)影响NameNode的寿命,因为文件的元数据存储在NameNode的内存中 (2)影响计算引擎的任务数量,每一个小文件都会生成一个Map任务 1)从数据的输入方面优化 (1)合并小文件:对小文件进行归档(Har)、自定义InputFormat 将文件存储为SequenceFile文件 (2)采用CombineFileInput作为输入,解...原创 2019-10-10 15:20:49 · 232 阅读 · 0 评论
分享