
Hadoop
文章平均质量分 69
Norris Huang
这个作者很懒,什么都没留下…
展开
-
AWS-EMR & Airflow 调度hivesql 异常thrift.transport.TTransport.TTransportException: TSocket read 0 bytes
增加 hive.server2.authentication 设置为NOSASL。通过Airflow 调用 EMR 中的hive 执行sql,遇到错误异常。修改hive-site.xml。原创 2022-10-13 22:12:55 · 1386 阅读 · 1 评论 -
论dfs.namenode.handler.count配置参数的总要性
接早前一篇文章 一次Hadoop 奇异故障之旅 的问题说。 这篇文章的故障,虽然用分批启动DN节点的方法,避免了重启HDFS的出现的内存问题。但是治标不治本,风险依然是存在的。所以要从根本上根治这个疑难杂症,就要从其他参数配置着手。 最终,锁定一个参数配置dfs.namenode.handler.count。先来看看它的解释 *NameNode有一个工作线程池用来处理客户端的远程过程调用及...原创 2018-03-28 10:38:11 · 9895 阅读 · 0 评论 -
一次Hadoop 奇异故障之旅
中午接到一个同事的消息,说一个有200多个dn节点的集群(CDH)hive没办法创建分区了。重启了多次,都没有效果。后来发现namenode也一直出现故障。收到消息,就联机上去看了一下,果然hive的命令全部都挂起来了,hadoop fs 命令也一样被挂起。在CDH 的管理界面上检查了一下NN节点的状态,发现NN有问题。因为是生产环境,已经有半天没有数据上报了。运维的同事都比较着急。没办法,先来常规原创 2017-09-06 15:33:05 · 953 阅读 · 0 评论 -
CDH 5 升级操作
现在大数据一直在使用CDH来作为基础平台。常会面临升级版本,操作中也经常出现各种各样的问题。 这里就整理一个操作步骤指引。 1.先升级CM,大部分情况下都应该是离线升级的场景。所以要先从官方网站上下载需要升级版本的rpm包,放到自己搭建的yum源中。 官方地址:http://archive-primary.cloudera.com/cm5/redhat/6/x86_64/cm/ 切记,自建原创 2017-06-12 13:45:11 · 1887 阅读 · 0 评论 -
异常断电导致HDFS文件块丢失,影响HBASE数据的问题处理
这几天一直看到HDFS提示文件块丢失的异常信息,也一直没有去关注,认为其他都正常。但是翻查HBASE入库日志的时候,发现了HBASE在提示入库的异常信息。联想到HDFS的块丢失问题,所以决定仔细检查一下,一查不得了,果然文件块丢失的问题影响还很大。很多数据都无法入库了。 通过命令检查HDFS的丢失文件块 hdfs fsck / -list-corruptfileblocks 发现原创 2017-04-06 09:57:00 · 4283 阅读 · 2 评论 -
Cloudera Hadoop 添加主机后,报主机状态异常问题
最近部署了一个CDH环境,突然发生了添加主机之后,提示主机状态异常,然后就无法分发CDH parcel。 这个问题困扰了将近半天的时间,一直翻查各种日志,最后在agent的日志中发现了问题。 主要原因是 第一遍部署CDH环境成功以后,由于mysql重启异常,强制杀死后,导致了CM无法正常连接mysql。然后进行第二遍部署。 在第二遍部署的时候,由于第一遍部署完成以原创 2017-04-05 08:58:17 · 2827 阅读 · 0 评论 -
Storm安装
1. Storm集群组件 Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下: 主控节点(Master Node)上运行一个被称为Nimbus的后台程序,它负责在Storm集群内分发代码,分配任务给工作机器,并且负责监控集群运行状态。Nimbus的作用类似于Hadoop中JobTracker的角色。每个工作节点(Wor转载 2015-09-06 10:06:26 · 465 阅读 · 0 评论 -
Hadoop 故障:java.lang.OutOfMemoryError: Java heap space
一个作业运行时,在maptask阶段出现了如下错误: FATAL org.apache.hadoop.mapred.Child: Error running child : java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.io.Text.setCapacity(Text.java:240)转载 2015-02-03 10:39:23 · 758 阅读 · 0 评论 -
Using the LZO Parcel
This section describes how to install and use the LZO parcel. The Repository Add the appropriate repository to Cloudera Manager’s list of parcel repositories. The HADOOP_LZO parcel will then bec转载 2015-01-27 11:29:59 · 602 阅读 · 0 评论 -
HBASE之RowKey排序解析
HBASE之RowKey排序解析 学了hbase一段时间了,近端时间在进行表设计的时候一直没搞清楚rowkey的排序规则是怎么样的。找了一些资料之后,原来rowkey的排序方式是以ASCII进行比较的。 以下是ASCII对照表格及描述,希望对学Hbase的朋友有帮助: 其他特殊字符的ASCII列表 转载地址:http://san-yun.ite转载 2014-11-25 09:00:57 · 11011 阅读 · 0 评论 -
基于HBASE的并行计算架构之rowkey设计篇
转载dizhi HBASE作为大数据容器目前在业界得到认可,并行计算是应对大数据的核心思路,而分布式设计是并行计算架构的基本方法,本文将基于HBASE讲解一种并行计算架构的设计方法。 1. 大数据在HBASE存储、计算以及查询的应用场景 海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10转载 2014-11-25 08:43:40 · 862 阅读 · 0 评论 -
Hadoop:mapreduce程序reduce输出控制
1,在Hadoop中,reduce支持多个输出,输出的文件名也是可控的,就是继承MultipleTextOutputFormat类,重写generateFileNameForKey方法 [java] public class LzoHandleLogMr extends Configured implements Tool { static class转载 2014-11-20 16:18:46 · 694 阅读 · 0 评论 -
Hadoop HBase 配置 安装 Snappy 终极教程
原创地址http://shitouer.cn/2013/01/hadoop-hbase-snappy-setup-final-tutorial/转载 2014-07-30 16:25:53 · 587 阅读 · 0 评论 -
Hadoop配置项整理(hdfs-site.xml)
续上篇整理一下hdfs相关的配置项 name value Description dfs.default.chunk.view.size 32768 namenode的http访问页面中针对每个文件的内容显示大小,通常无需设置。 dfs.datanode.du.reserved 1073741824 每块磁盘所保留的空间大小,需要设置转载 2014-08-05 15:49:16 · 636 阅读 · 0 评论