
Hadoop-MapReduce
@张火火
这个作者很懒,什么都没留下…
展开
-
Hadoop优化之常用调优参数
1)资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb 一个ReduceTas...原创 2020-08-14 20:37:46 · 190 阅读 · 0 评论 -
简单的hadoop数据压缩案例实操
简单的hadoop数据压缩案例实操编码思路压缩1.获取文件输入流2.需要先获取一个普通的文件输出流,然后创建压缩文件的输出流,并将普通文件的输出流传入压缩文件输出流方法中,来做到输出压缩文件的效果(注意,还需要指定压缩的类型)3.进行流的对拷4.关闭流解压缩1.获取一个普通的文件输入流,再创建一个压缩文件的输入流,把普通文件输入流作为参数传入2.对比上述压缩过程,需要加一个输入的文件是否是支持的压缩文件的判断3.获取普通文件输出流4.流的对拷5.关闭流代码实现public cla原创 2020-08-14 20:20:08 · 241 阅读 · 0 评论 -
Hadoop-MapReduce压缩参数配置
参数 默认值 阶段 建议 io.compression.codecs (在core-site.xml中配置) 无,这个需要在命令行输入hadoopchecknative查看 输入压缩 Hadoop使用文件扩展名判断是否支持某种编解码器 mapreduce.map.output.compress(在mapred-si...原创 2020-08-14 18:19:07 · 468 阅读 · 0 评论 -
MapJoin案例详解
MapJoin1.MapJoin的重要知识点MapJoin适用于有一张十分小的表和一张甚至多张非常小的表的场景,这样的话就可以在MapTask阶段将非常小的那几张表加载进内存,提前处理业务从而减少Reduce端的压力,以减少数据倾斜。2.案例操作2.1需求 order.txtpididamount原创 2020-08-12 22:18:35 · 1332 阅读 · 1 评论