
hadoop
文章平均质量分 93
疯狂哈丘
这个作者很懒,什么都没留下…
展开
-
Yarn LevelDb文件过大导致重启NM失败问题分析
文章目录一、问题描述二、问题分析代码分析三、解决方案1、定期重启NM2、修改源码一、问题描述近期滚动重启Yarn NodeMagager时,发现滚动重启NM会卡很久,然后滚动重启失败(测试了好几台,基本都滚动重启失败)深入排查后,发现失败的原因如下:NM在启动的时候会去加载yarn-nm-recovery下面的leveldb数据库,主要是为了恢复机器上正在运行的container的相关信息。我们发现,重启失败的NM在启动的时候一直卡在读取leveldb数据库中,之后MRS的进程健康检查脚本发现NM启原创 2021-11-26 17:36:32 · 3592 阅读 · 3 评论 -
mac 下编译hadoop源码
本篇博客主要介绍社区版的hadoop源码的编译,以及会遇到的一些问题。一、获取hadoop源码可以通过hadoop的官网获取hadoop相关源码包:https://hadoop.apache.org/releases.html。或者直接通过git去github拉取最新的源码:git clone https://github.com/apache/hadoop# 拉完代码后进入源码目录cd...原创 2018-12-23 11:37:22 · 1190 阅读 · 0 评论 -
docker上从零开始搭建hadoop和hive环境
文章目录一、构建自己的centos镜像二、hadoop 伪分布式环境安装3种安装模式伪分布式环境安装1. 解压安装包2. 修改相关配置文件3. 指定HADOOP环境变量4. namenode 初始化5. 启动hdfs和yarn6. 验证程序已经正确启动三、hive环境安装编译hive安装hive1. 解压安装包2. 修改配置文件3. 初始化hive数据库4. 配置hive相关环境变量5. 验证配置...原创 2018-12-23 16:02:46 · 6533 阅读 · 7 评论 -
yarn ResourceManager Active频繁易主问题排查
文章目录一、故障现象二、问题分析RM的HA机制分析ZK问题分析部分任务状态更新失败问题分析三、解决和优化方案1. 调大 jute.maxbuffer 参数2. 修改yarn的源码3. 快速让集群恢复稳定的方法四、总结本周三公司的yarn集群出现故障,导致两台ResourceManger频繁易主,并且许多提交到集群的任务状态为NEW_SAVING,无法执行。这里对此次的故障排查进行一个总结。一、...原创 2019-03-23 11:44:37 · 2475 阅读 · 5 评论 -
Hdfs FileSystem 使用姿势不对导致的内存泄露
文章目录一、问题描述二、问题排查Java Heap Dump文件使用Jmap获取运行中的jvm内存在Jhat页面查找对应类实例具体的引用问题定位三、解决方案四、总结一、问题描述有用户反馈访问httpfs服务偶尔出现502的情况,所以上httpfs服务器看了下,发现有一台因为OOM挂掉了(运维告警没弄好,所以没及时通知到)。目前有两台HttpFs,通过nginx转发,如果刚好请求转发到挂掉的那...原创 2019-04-14 21:25:39 · 5227 阅读 · 3 评论 -
MapReduce任务运行慢问题排查
文章目录一、问题描述二、问题分析1、第一次失败(yarn的磁盘健康检查机制导致的任务失败)2、第二次失败(map和reduce资源竞争导致的死锁)三、总结参考资料一、问题描述今天有业务反馈有个MapReduce任务运行很慢,于是看了下JobHIstory上任务的运行情况,发现任务就剩一个reduce还在执行,当时第一反应以为是出现了数据倾斜。但实际排查后发现不是,因为这个任务的reduce t...原创 2019-07-31 18:11:04 · 8329 阅读 · 0 评论