
CDH
mtj66
这个作者很懒,什么都没留下…
展开
-
Building online HBase cluster of Zhihu based on Kubernetes
Building online HBase cluster of Zhihu based on Kubernetes 采用 Kubernetes 进行hbase部署,扩展性大大增强。https://www.slideshare.net/HBaseCon?utm_campaign=profiletracking&utm_medium=sssite&utm_source=ssslideview同样对s原创 2017-12-14 15:33:20 · 603 阅读 · 0 评论 -
自己写了一个flume小文件合并脚本,解决hdfs小文件过多问题
flume数据采集之后,本打算按照五分钟滚动一个文件的,但是由于实时性要求提高,改为一分钟一个文件。但是开启了三个flume实例,导致hdfs小文件过多。1.影响NameNode,2.影响task数量决定写一个flume的合并脚本,写着写着,功能越来越多,越来越完善。合并方案我写过两个:1.使用spark进行读取合并,优点是scala代码书写,高级语言编程,易于理解维护原创 2017-11-08 22:12:07 · 2673 阅读 · 0 评论 -
Initialization failed for Block pool BP-XX (Datanode Uuid xxx) service to
配置hdfs namenode HA:hdfs zkfc –formatZK Initialization failed for Block pool BP-666417012-10.253.76.213-1557044865448 (Datanode Uuid 5132035c-8d6a-4617-af7e-7d07355a905b) service to hzd-t-...原创 2019-05-05 18:22:03 · 1273 阅读 · 0 评论 -
Hadoop NameNode 高可用 (High Availability) 实现解析
NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于 HDFS 的各个组转载 2018-01-03 22:05:25 · 2393 阅读 · 0 评论 -
Caused by: java.lang.IllegalArgumentException: bad journal id: qjournal://
CM 6.2.0 cdh hdfs 配置HA方法:CDH 5.0 和更高版本不支持使用共享 NFS 挂载的 HDFS High Availability。建议您将 HDFS HA 设置切换为 Quorum-based Storage。必须将 HDFS HA 设置切换为 Quorum-based Storage,然后再尝试升级至 CDH 5。 Suppress...一直是个警告,真的是很烦啊...原创 2019-05-16 18:22:53 · 2305 阅读 · 0 评论 -
HDFS读文件过程分析:获取文件对应的Block列表
HDFS读文件过程分析:获取文件对应的Block列表在使用Java读取一个文件系统中的一个文件时,我们会首先构造一个DataInputStream对象,然后就能够从文件中读取数据。对于存储在HDFS上的文件,也对应着类似的工具类,但是底层的实现逻辑却是非常不同的。我们先从使用DFSClient.DFSDataInputStream类来读取HDFS上一个文件的一段代码来看,如下所示:pa转载 2018-02-07 15:41:38 · 1550 阅读 · 0 评论 -
hadoop文件夹大小统计
理解hadoopfsck、fs -dus、-count -q的大小输出hadoopfsckcountdus很多hadoop用户经常迷惑hadoopfsck,hadoopfs -dus,hadoop-count -q等hadoop文件系统命令输出的大小以及意义。这里对这类问题做一个小结。首先我们来明确2个概念:逻辑空间,即分布式文件系统上真正的文件大小 物理空间,即存...转载 2016-09-24 10:19:22 · 13057 阅读 · 0 评论 -
CDH flume ETL with morpnline conf and write into solr
创建Collection1.生产实体配置文件:solrctl instancedir –generate $HOME/collection2 生成配置文件后会在collection2 /conf这个目录下产生很多配置文件,我们可以根据自己的需要修改schema.xml文件,具体schema.xml的修改规则可以参看:http://wiki.apache.org/solr/Schem原创 2018-02-01 18:28:45 · 399 阅读 · 0 评论 -
使用hive来分析flume收集的日志数据
flume学习(六):使用hive来分析flume收集的日志数据转自:http://blog.youkuaiyun.com/xiao_jun_0820/article/details/38119123前面已经讲过如何将log4j的日志输出到指定的hdfs目录,我们前面的指定目录为/flume/events。如果想用Hive来分析采集来的日志,我们可以将/flume/even原创 2016-12-18 13:24:16 · 481 阅读 · 0 评论 -
Yarn 调度器Scheduler配置详解
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三转载 2017-03-07 21:10:10 · 1158 阅读 · 0 评论 -
工作流引擎 Oozie 安装 结合HUE使用
ref http://blog.youkuaiyun.com/nsrainbow/article/details/43746111Oozie是什么简单的说Oozie是一个工作流引擎。只不过它是一个基于Hadoop的工作流引擎,在实际工作中,遇到对数据进行一连串的操作的时候很实用,不需要自己写一些处理代码了,只需要定义好各个action,然后把他们串在一个工作流里面就可以自动执行了。对于转载 2017-08-28 10:01:26 · 1872 阅读 · 0 评论 -
Clouder Manager: Yarn Fair scheduler config
直接上配置: drf drf 0 mb,0 vcores 308020 mb,124 vcores 100 300 1.0 0 mb,0 vcores 154000 mb,128 vcores 200 300 4.0 long long原创 2017-07-05 17:45:15 · 607 阅读 · 0 评论 -
Hadoop YARN新特性—label based scheduling
Hadoop YARN新特性—label based scheduling 网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-label-based-scheduling/在最新的hadoop 2.6.0版本中,YARN引入了一种新的调度策略:基于标签的调度机制。该机制的主要引入动机是更好地让YARN运行在异转载 2017-01-24 11:40:59 · 665 阅读 · 0 评论 -
authorize.AuthorizationException: User: livy is not allowed to impersonate
部署参考 livy安装:https://cloud.tencent.com/developer/article/1349537此外需要在hdfs core-site.xml 配置如下代理: <property><name>hadoop.proxyuser.livy.groups</name><value>*</value>&l...原创 2019-05-31 18:20:32 · 2466 阅读 · 1 评论 -
CM分发安装部署Zeppelin后无法启动
CDH 6.2.0 Zeppelin 安装部署编译 zeppelin parcels 参考:https://cloud.tencent.com/developer/article/1349543部署参考 livy安装:https://cloud.tencent.com/developer/article/1349537补充:重启CM Service monitor,否则安装的livy以...原创 2019-05-31 15:01:16 · 584 阅读 · 0 评论 -
由于端口被修改导致的DataNode 重启失败
在配置kerberos认证失败后,打算恢复原始的状态, DataNode 重启失败, 经过排查发现错误日志如下,判断有可能是端口拒绝访问导致的,查看hdfs的 端口配置发现有两处变动的地方,使用恢复按钮进行恢复,之后重启即可.(此处是CM默认的配置,和HDFS原始的端口号不完全一致) Exception in secureMainjava.net.Socke...原创 2019-05-23 18:54:23 · 773 阅读 · 0 评论 -
How to get rid of the "Altus Data Collection configuration" error message
https://community.cloudera.com/t5/Cloudera-Manager-Installation/How-to-get-rid-of-the-quot-Altus-Data-Collection/m-p/81630该错误是远程诊断没有配置导致的,不是必须的服务,直接删除即可.The Telemetry Publushing Service is not a n...原创 2019-04-26 10:00:53 · 2282 阅读 · 5 评论 -
CDH 升级到5.12 /etc/alternatives 仍然指向旧版本的CDH
解决方案直接强制更新软连接:查看原始的连接ll /etc/alternatives | grep CDH | grep -v conf 例如lrwxrwxrwx 1 root root 66 Nov 18 11:13 avro-tools -> /data/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.26/bin/avro-tools原创 2017-11-20 15:17:41 · 1076 阅读 · 0 评论