
hadoop
文章平均质量分 92
wankunde
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
关于hadoop中的排序
昨天有个面试,问到在MapReduce过程中会发生几次排序? 如图,应该还是两次排序. 第一次应该是在map数据持久化到本地硬盘的时候,这个时候,每次从内存spill之前会做inmemory sort,在map操作完成之前还会对所有spill文件做排序,完成磁盘文件合并。步骤应该是partition in momery sort combine原创 2014-12-02 11:06:13 · 2107 阅读 · 0 评论 -
遗留问题整理
Impalaimpala 在查询大文件的时候会直接报错: https://issues.apache.org/jira/browse/IMPALA-1619 Support single allocations larger 1GB 版本:impala 2.3.0-cdh5.5.1Sqoop 抽数进程僵死sqoop 抽数进程僵死,查看jdk源码,发现是在一个函数调用的地方,尝试用原创 2017-11-27 09:17:56 · 496 阅读 · 0 评论 -
Hadoop audit
Hadoop audit 配置修改log4j.properties ## hdfs audit logging#hdfs.audit.logger=INFO,NullAppenderhdfs.audit.log.maxfilesize=256MBhdfs.audit.log.maxbackupindex=20log4j.logger.org.apache.hadoop.hd...原创 2018-01-29 14:17:13 · 2065 阅读 · 0 评论 -
HDFS NameNode Ha切换出错
问题描述在HDFS namenode在切换的时候,发现切换后有大量Missing replicas. 文章 HDFS HA切换后missing block问题分析 有分析,问题原因是因为DataNode blockReport时,Edit log 还没有进行同步导致的问题。Hdfs Ha 管理命令查看NameNode状态 hdfs haadmin -getServiceSta原创 2018-01-29 21:06:16 · 1041 阅读 · 0 评论 -
Hadoop TimelineServer v1 修改
背景TimeLineServer v1存在什么问题在我们集群只保留3.5天的运行日志时,leveldb数据库大小就已经达到了93G。yarn 的任务在post entities 时,数据的插入会卡的厉害,进而导致集群各种不确定性问题,包括yarn application的状态机转换出错,yarn application 无法正常退出,集群经常出现Socket 连接失败,输入输出流的异常...原创 2018-03-12 09:42:37 · 1366 阅读 · 0 评论 -
Like 函数优化
优化前SQLSELECT A.DT, A.sdcuser_id as user_id, A.visitorid as app_device_id, A.visitid as sd_sid, b.activity_id, a.sdcSource FROM base.UDS_B_I_OMM_WEBTRENDS_T A...原创 2018-05-18 10:22:49 · 1243 阅读 · 0 评论 -
Kylin cubo
运维启动和关闭 :~/bin/kylin.sh start 和~/bin/kylin.sh stop 默认服务端口7070,修改默认端口:~/tomcat/conf/server.xml 默认用户名密码:ADMIN / KYLIN原创 2018-05-23 10:25:56 · 320 阅读 · 0 评论 -
HDFS CheckSum
程序入口Hadoop Branch : Hadoop-2.6.0使用样例 : hadoop dfs -checksum /tmp/README.txt结果/tmp/README.txt MD5-of-0MD5-of-512CRC32C 00000200000000000000000017970719be16d1071635fa381b95f957算法说明:“MD5-of-” ...原创 2018-09-24 22:52:31 · 4062 阅读 · 0 评论 -
hadoop namenode 本地调试环境搭建
本地环境配置核心是增加namenode启动调试参数export HADOOP_NAMENODE_OPTS="${HADOOP_NAMENODE_OPTS} -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=8005"一般namenode启动命令有 sbin/hadoop-daemon.sh start namen...原创 2018-11-13 00:42:14 · 445 阅读 · 0 评论 -
Hadoop单机数据迁移
1.停止hadoop运行运行stop-all.sh2.配置namenode节点和datanode节点的数据存储目录修改hdfs-site.xml配置文件,添加如下内容<property> <name>dfs.name.dir</name> <value>/home/test/hadoop-test/dfs/name&...原创 2013-06-26 14:37:42 · 348 阅读 · 0 评论 -
hadoop web中查看文件内容乱码解决
错误描述:在50075查看hdfs数据文件中有 & 符号时,中文数据乱乱码错误原因:系统默认字符集:Charset.defaultCharset().name() 为UTF-8,但是在系统在web程序中取出得编码值为:US-ASCII。在字符串编码时,默认使用的是US-ASCII字符集,该字符集应该是UTF-8子集中的单字符集,导致中文无法由byte拼装还原。 参考:...原创 2014-09-29 11:20:47 · 1314 阅读 · 0 评论 -
Hadoop Metrics2实现原理
Hadoop Metrics2的实现应该是在14年左右就已经非常成熟了,研究的人也比较多了。一个出现很久的东西,并非没有学习价值。如Metrics2 和之前的Metrics 一代做了哪些改进?如果我们自己设计一套Metrics信息,哪些是可以借鉴的地方?所有Source 和Sink全部是可配置的(和我们常见的Log4j配置一样),这样可以在不修改源码的情况下,自定义Metrics的监控Met...原创 2019-05-03 22:14:42 · 2080 阅读 · 0 评论 -
HDFS NAMENODE QJM HA方案实现-1
文章目录JournalNodeQJM 方案对象实现过程确定 EditsDirs实例 FSImage 和 FSEditLogNameNode服务启动和journalSet 实例初始化journalSet 初始化JournalManager / QuorumJournalManager 初始化AsyncLoggerSetclass IPCLoggerChannel implements AsyncL...原创 2019-05-08 19:06:12 · 2016 阅读 · 0 评论 -
Hadoop HDFS HA 状态切换源码
文章目录NameNode启动进入StandBy StateZKFC 进程监控和切换 NameNode HA State启动 HDFS ZKFC 服务启动 HealthMonitor服务NameNodeRpcServerdoHealthChecks()ActiveStandbyElector 和 ActiveStandbyElectorCallbackzkClient 操作异步方法回调Elector...原创 2019-05-09 20:13:09 · 1062 阅读 · 0 评论 -
StandBy NameNode 合并并回传FSImage
文章目录启动StandbyCheckpointerdoCheckpointsave FSImage文件启动独立线程,SNN 向NN PUT FSImageImageServlet 接收 FSImage启动StandbyCheckpointer// 接上篇StandbyState public void enterState(HAContext context)NameNodeHAConte...原创 2019-05-09 20:33:14 · 432 阅读 · 0 评论 -
ORC文件存储格式和数据写入过程
文章目录ORC 文件格式,配置参数及相关概念ORC 文件格式UML类图OrcFile writer 创建OrcFile Writer 配置参数相关概念动态数组 DynamicIntArray 和 DynamicByteArray初始化chunk 扩容OrcFile writer的 write()方法 写数据WriterImpl addRow程序入口StringTreeWriter : void w...原创 2019-05-16 18:05:54 · 8562 阅读 · 0 评论 -
Hadoop 运维记录
Hivehive在和spark 2.*集成的时候,把加载spark包的代码注释一下112 # if [[ -n “$SPARK_HOME” ]] 113 # then 114 # sparkAssemblyPath=ls ${SPARK_HOME}/lib/spark-assembly-*.jar 115 # CLASSPATH=”CLASSPATH:" role="pres原创 2017-08-01 15:55:28 · 425 阅读 · 0 评论 -
Hadoop 任务重要参数整理
后台服务进程信息查看conf jmx logs logLevel stacks调试信息set hive.execution.engine=mr;set yarn.nodemanager.delete.debug-delay-sec=1200; 日志保留时间,单位:秒set mapreduce.task.timeout=60000000; 在debug的时候,c...原创 2017-06-14 17:48:05 · 2032 阅读 · 0 评论 -
htrace
linksNew in Cloudera Labs: Apache HTrace (incubating)Installing htraced我们hadoop集群使用的是CDH的源,所以直接 yum install Htrace-htraced 即可。或者到 http://archive.cloudera.com/cloudera-labs/htrace/ 地址自己下载安装包安装。 例如: ht原创 2017-11-21 14:24:09 · 1817 阅读 · 0 评论 -
实现JD二级域名数据的统计
编写MR程序程序思路使用key来作为domain和uid的区分,每一条记录都是一个pv。接到key后判断,如果domain为新的domain,则开始重新统计pv和uv,如果uid变化,则uv++,pv是一直++即可实现。MR 程序实现pv和uv统计原创 2015-06-18 17:48:33 · 1162 阅读 · 0 评论 -
Hadoop Problem
Reduce fetch map data ,but OOM2015-11-26 15:02:18,687 INFO [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl: MergerManager: memoryLimit=1 336 252 800, maxSingleShuffleLimit=133625280,原创 2015-11-27 10:06:30 · 671 阅读 · 0 评论 -
HDFS租约解析
转自:http://bigdatadecode.club/HDFS%E7%A7%9F%E7%BA%A6%E8%A7%A3%E6%9E%90.html租约(Lease)是一种广泛应用与分布式系统领域的协议,主要用来维护分布式系统的一致性。租约是在解决缓存一致性时被提出的。所谓租约,其实就是一个合同,即服务器给予客户端在一定期限内可以控制修改操作的权力。如果服务器要修改数据,首先要征求拥有转载 2017-03-28 10:17:49 · 4307 阅读 · 0 评论 -
hadoop2.x常用端口及定义方法
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, Hbase, Hive, ZooKeeper:组件节点默认端口配置用途说明转载 2017-06-07 15:21:11 · 398 阅读 · 0 评论 -
hadoop job yarn 命令
hadoop命令行 与job相关的:命令行工具 • 1.查看 Job 信息:hadoop job -list 2.杀掉 Job: hadoop job –kill job_id3.指定路径下查看历史日志汇总:hadoop job -history output-dir 4.作业的更多细节: hadoop job -history all output-dir转载 2017-06-13 10:46:09 · 1470 阅读 · 0 评论 -
hadoop任务运行日志
Hadoop任务运行目录原创 2016-08-26 16:32:17 · 3748 阅读 · 0 评论 -
HDFS block写报错
block写报错原创 2017-08-09 09:31:44 · 1749 阅读 · 0 评论 -
kerberos 与Hadoop集成
kerberos 安装通过yum安装即可,组成KDC原创 2017-08-23 11:04:09 · 3058 阅读 · 0 评论 -
问题整理
在运行过程中,占用物理内存过大,导致container被yarn killhive.exec.orc.zerocopy=true;原创 2017-08-28 16:37:49 · 501 阅读 · 0 评论 -
namenode 异常关闭问题查询
namenode 节点异常关闭查询journalnode节点没有响应,导致namenode节点关闭2017-10-03 09:48:15,982 INFO org.apache.hadoop.hdfs.server.namenode.FSEditLog: Starting log segment at 770723902017-10-03 09:48:34,996 WARN org.apach原创 2017-10-09 19:21:47 · 1516 阅读 · 0 评论 -
Hadoop Protobuf RPC 调用说明
Hadoop Journal RPC 调用类结构说明原创 2017-10-09 20:41:13 · 558 阅读 · 0 评论 -
数据库Join实现
测试sql : select * from a join b where a.id= b.id;a 0 hash map table b 1 scan table alias : 1MapJoinOperator 核心代码// MapJoinOperator.java在cleanUpInputFileChangedOp() 方法中load hash tablegenerateMap原创 2017-10-11 14:12:37 · 2676 阅读 · 0 评论 -
DNS解析导致HDFS连接建立过慢
问题定位在执行spark代码的时候,一个读只有几行文件的操作,耗时20几秒,明显异常,通过Yourkit发现耗时的地方全部都是在做DNS解析。问题分析通过简单的测试代码测试HDFS连接,在创建socket的时候,首先查找的host是hdfs ha的虚拟地址,在这个地方去解析地址耗时过多,然后返回失败信息,再去寻找真正的主机地址。public static InetSocketAddress crea原创 2017-10-17 11:21:58 · 1285 阅读 · 2 评论 -
Yarn源码分析之事件异步分发器AsyncDispatcher
事件异步分发器AsyncDispatcher处理流程service初始化时new一个dispatcher用于事件分发dispatcher内部有一个queue用于接收和异步处理事件dispatcher register各种事件类型及事件处理类,事件处理类中有handle方法用于处理时间* EventType and HandlerResourceManager.java NodesLis原创 2017-10-20 18:39:34 · 1422 阅读 · 0 评论 -
Hadoop NameNode EditLog 实现
文章目录NameNode初始化getNamespaceEditsDirsFSImage 初始化`FSNamesystem.loadFromDisk(conf)``fsImage.recoverTransitionRead(startOpt, this, recovery);``FSImage.loadFSImage()`FSEditLog初始化initEditLogopenEditLogForWr...原创 2019-06-20 18:55:52 · 646 阅读 · 0 评论