
Hadoop
文章平均质量分 87
DT鸽子
这个作者很懒,什么都没留下…
展开
-
hadoop-MapReduce--二次排序
Hadoop 实例11 二次排序讲解在 hadoop2.X 以后使用是job.setPartitionerClass(Partitioner p); // map阶段对输入的数据进行分区操作,每个分区映射到一个reducer。job.setSortComparatorClass(RawComparator c); //如果没有通过job.setSortComparatorClass设置...原创 2018-09-30 15:17:15 · 209 阅读 · 0 评论 -
hadoop2.X 伪分布环境配置
地址:http://archive.cloudera.com/cdh5/cdh/5/http://archive.cloudera.com/cdh5/hadoop原生地址:http://archive.apache.org/dist/复制数据rsync -r spark-1.6.1 root@10.161.20.93:/mnt/sd02scp -r spark-1.6.1 ro...原创 2018-10-31 17:54:31 · 274 阅读 · 0 评论 -
hadoop编译和spark编译
编译hadoop1.下载maven(apache-maven-3.3.3-bin.tar.gz)(3.0.5以上版本)http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz2.安装maventar -zxvf apache-maven-3.3.3-bin.tar....转载 2018-10-31 18:31:33 · 477 阅读 · 0 评论 -
hadoop-HA分析
转载 2018-10-31 22:31:08 · 190 阅读 · 0 评论 -
二次排序
二次排序(对value值也进行排序,需要建所要排序的字段与真正的key拼接形成自定义的key)<!--[if !supportLists]-->1. 1.<!--[endif]-->map最后阶段进行partition,一般使用job.setPartitionerClass()设置的类进行分区,每个分区映射到一个reducer。如果没有自定义的Key...原创 2016-06-27 13:45:05 · 186 阅读 · 0 评论 -
二次排序(2)
1.二次排序概念:首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果 。如: 输入文件:20 21 50 51 50 52 50 53 50 54 60 51 60 53 60 52 60 56 60 57 70 58 60 61 70 54 70 55 70 56 70 57 70 58 1 2 3 4 5 6 7 82 203 21 5...原创 2016-06-27 13:45:46 · 134 阅读 · 0 评论 -
转载:Hadoop性能调优
https://blog.youkuaiyun.com/dehu_zhou/article/details/52808752https://blog.youkuaiyun.com/dxl342/article/details/52840455https://blog.youkuaiyun.com/u014156013/article/details/81347670Hadoop性能调优1. 简介Hadoop性能调优...转载 2019-04-15 09:38:31 · 616 阅读 · 0 评论 -
Hadoop数据压缩
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件,...原创 2019-04-15 09:53:27 · 397 阅读 · 0 评论 -
hdfs missing blocks. The following files may be corrupted
https://www.cnblogs.com/itboys/p/9596441.htmlThere are 2 missing blocks. The following files may be corrupted:步骤1,检查文件缺失情况可以看到,blk_1074785806 /var/log/yarn_hislog/yarn/apps/root/logs/app...转载 2019-06-13 17:31:52 · 1928 阅读 · 0 评论 -
转载:Hadoop集群datanode磁盘不均衡的解决方案
原网址:https://www.cnblogs.com/Richardzhu/p/5807917.html一、引言:Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无...转载 2018-10-11 15:39:35 · 597 阅读 · 0 评论 -
Zookeeper + Hadoop2.6 集群HA + spark1.6完整搭建与所有参数解析
原文章地址:http://www.cnblogs.com/yangsy0915/p/5347849.html废话就不多说了,直接开始啦~安装环境变量:使用linx下的解压软件,解压找到里面的install 或者 ls 运行这个进行安装yum install gcc yum install gcc-c++ 安装make,这个是自动编译源码的工具yum inst转载 2016-09-18 16:51:28 · 1592 阅读 · 0 评论 -
HBase+ZooKeeper+Hadoop2.6.0的ResourceManager HA集群高可用配置
问题导读: 0、了解常规JDK安装以及Linux系统配置 1、了解集群规划以及集群场景 2、熟悉HBase的集群搭建 3、熟悉ZooKeeper集群搭建 4、熟悉Hadoop2.6.0版本HA集群搭建 5、验证HBase、ZooKeeper、Hadoop等集群运行情况参考 :转载 2016-10-14 13:08:29 · 1791 阅读 · 0 评论 -
Hadoop CombineFileInputFormat原理说明(转)
Hadoop CombineFileInputFormat原理说明(转)(2013-05-10 15:48:35)原网址:http://blog.sina.com.cn/s/blog_5673f78b0101etz4.html 分类:分布式计算mapreduce中,一个job的map个数, 每个map处理的数据量是转载 2016-10-27 13:43:31 · 375 阅读 · 0 评论 -
提高mapreduce性能的七点建议
提高mapreduce性能的七点建议原网址:http://www.cnblogs.com/chengxin1982/p/3957714.html Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快转载 2016-10-28 17:12:31 · 459 阅读 · 0 评论 -
HDFS snapshot操作实战
原网址:http://debugo.com/hdfs-snapshot/Hadoop从2.1.0版开始提供了HDFS SnapShot的功能。一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。快照在下面场景下是非常有用:防止用户的错误操作:管理员可以通过以滚动的方式周期性设置一个只读的快照,这样就可以在文件系统上有若干份只读快照。如果用户意外地删除了一个文件转载 2016-11-28 17:48:59 · 335 阅读 · 0 评论 -
hadoop2.4.1集群安装
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将...原创 2016-10-14 22:50:59 · 563 阅读 · 0 评论 -
Hadoop-统计红楼梦里出现名字的次数(MapReduce学习)
Hadoop-统计红楼梦里出现名字的次数(MapReduce学习)原网页:http://www.cnblogs.com/Decmber/p/5491887.htmlpackage org.bigdata508.util;import java.io.BufferedReader;import java.io.File;import java.io.FileNotFo转载 2016-12-26 21:36:07 · 2494 阅读 · 1 评论 -
Failed to initialize container executor
ClouderaManager启动NodeManager失败!报错Failed to initialize container executor原网址:https://www.cnblogs.com/zhzhang/p/5711161.html报错信息:2016-07-27 10:53:14,102 WARN org.apache.hadoop.yarn.server.nodemanager.Li...转载 2018-06-25 20:03:17 · 1095 阅读 · 0 评论 -
CDH minimum-user-id
http://crazyadmins.com/minimum-user-id-error-while-submitting-mapreduce-job/允许的系统用户 allowed.system.usershttp://community.cloudera.com/t5/Batch-Processing-and-Workflow/YARN-force-nobody-user-on-all-j...原创 2018-06-26 14:52:59 · 229 阅读 · 0 评论 -
Eclipse安装Hadoop插件配置Hadoop开发环境
Eclipse 安装 Hadoop 插件1、首先下载对应版本的hadoop插件 注意:Hadoop插件要跟自己安装的Hadoop版本相对应。这儿有一个Hadoop 2.X版本对应的Hadoop插件,前往下载, 下载hadoop2x-eclipse-plugin.zip。解压后,release文件夹下的hadoop.eclipse-kepler-plugin-2.2.0.jar即为我们所...转载 2018-08-14 22:58:31 · 34856 阅读 · 10 评论 -
hadoop2.X 伪分布安装
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMne原创 2016-08-21 12:04:45 · 383 阅读 · 0 评论