Hadoop节点上负载过高的问题分析

最新推荐文章于 2025-09-22 12:43:19 发布

原创

最新推荐文章于 2025-09-22 12:43:19 发布 · 908 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop #负载高

背景

最近发现我们的hadoop集群的客户端机器负载经常飙到几百，导致机器反应很慢，客户反应无法提交job，或者job跑的很慢。

针对这种情况通常有几个解决方案，一个是增加客户端机器数量，把他们做到一个pool里面，根据系统负载情况来自动切换不同的客户端机器，也叫负载均衡这个我们已经做到了；一个是找出负载高的根源，因为如此高的负载是很不寻常的表现，通常是因为系统参数不对或者应用程序有bug。

现象分析

用perf top观察占用最多cpu time的程序，发现大部分是compaction.c这个程序造成的。

可以通过如下命令抓取一分钟的记录看下：

<span style="color:#000000">$ sudo perf record -a -g -F 1000 sleep 60
</span>

这里借用Brendan Gregg’s的工具 flame graph 分析下抓取的数据。

google查看后了解compaction.c

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Make Dream Happen

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【亲测可用】三节点Hadoop分布式集群扩缩容

yangjun_1985的博客

12-27

419

随着公司业务的增长，数据量越来越大，原有DataNode节点的容量已经不能满足数据存储的需求，需要在原有集群基础上动态添加新的数据节点，也就是俗称的动态扩容。此外，这台机器可能并非真正的DataNode，不在集群的控制之内，随时可能停止从而导致潜在的数据丢失。为了设置NameNode节点(hadoop1)到新增DataNode节点(hadoop4)的免密登录，我们需要将hadoop4节点的公钥id_ras.pub复制到hadoop1节点中的authorized_keys文件中，具体操作如下所示。

大数据集群节点磁盘负载不均衡怎么办?

明哥的IT随笔

01-08

1177

大数据集群节点磁盘负载不均衡怎么办?大家好，我是明哥！“大数据集群节点磁盘负载不均衡”的问题，相信大数据集群管理员并不陌生，本片文章，我们就简单分享下，如何应对上述问题。问题现象大数据集...

参与评论您还未登录，请先登录后发表或查看评论

hadoop集群个别节点存储空间达到90%

岁月静好，做自己。

11-07

1492

所以需要小磁盘留有一定的空闲空间，查看hadoop资料，设置 dfs.datanode.du.reserved配置项可以使每个磁盘保留相应的磁盘空间，单位使用bytes，但是我设置之后起作用了，总体容量下降，依然往小盘上写数据，艹艹，我使用的hadoop版本是cloudera的cdh4.6。我们现在用的集群中，各个datanode使用空间差不多，但是由于有3台总的存储空间较小，导致使用量接近90%报警，网上查的方法都是说namenode写文件的时候。修改hdfs-site.xml:添加。

hadoop集群System Cpu消耗过高问题分析--内存碎片整合问题

hanyingzhong的专栏

05-18

2572

hadoop集群System Cpu消耗过高问题分析--内存碎片整合问题 2013-06-21 17:01 2410人阅读评论(0) 收藏举报 Hadoop集群服务器升级为rhel6内核后，System Cpu占用非常高，有任务运行的时候经常到50%以上。对其中一台机器一天的运行状态采样的数据： idle: 76% sys:14% user: 9% 从

大数据：Hadoop集群负载均衡

最新发布

weixin_43290370的博客

09-22

1188

在阿里、字节等大厂的PB级大数据集群中，Hadoop负载均衡是保障集群资源利用率、避免单点过载、提升任务执行效率的核心能力。不同于传统单机负载均衡，Hadoop的负载均衡贯穿与，需结合分布式架构特性实现“数据与计算的协同均衡”。本文从核心机制、策略拆解、实战落地三个维度，系统剖析Hadoop负载均衡的实现逻辑。

节点负载差距这么大，为什么收到的流量还一样？

码农架构

08-04

1562

在进入主题之前，我想先和你分享一个需求，这是我们公司的业务部门给我们提的。他们反馈的问题是这样的：有一次碰上流量高峰，他们突然发现线上服务的可用率降低了，经过排查发现，是因为其中有几台机器比较旧了。当时最早申请的一批容器配置比较低，缩容的时候留下了几台，当流量达到高峰时，这几台容器由于负载太高，就扛不住压力了。业务问我们有没有好的服务治理策略？业务部门问题示意图这个问题其实挺好解决的，我们当时给出的方案是：在治理平台上调低这几台机器的权重，这样的话，访问的流量自然就减少了。但业务接着反...

节点高负载

小胡子

03-29

913

节点高负载

【hadoop记录】节点不健康-存储空间已用90%

吉吉国王的博客

04-26

434

解决方法：删除无用文件扩展磁盘

如何动态添加和删除Hadoop节点

为天加朵云...

02-19

820

在Hadoop集群中，动态添加和删除节点是常见的运维操作。通过动态调整集群规模，可以提高资源利用率或应对负载变化。以下是动态添加和删除Hadoop节点的详细步骤。

Hadoop 各节点负载均衡

xssjtt的专栏

10-18

4307

Hadoop 各节点负载均衡背景：对于HDFS集群，经常长时间的运行，数据量会增趋势性增长，hdfs的使用率会越来越饱和，此时会对hdfs进行扩容，而扩容之后为了提高各个datanode之间的分布式读写效率，必须实现节点之间的负载均衡。另外集群经过大量的delete操作后，各个Datanode上的空间使用率可能会存在比较大的差异，少数使用率过高的Datanode会导致对其的数据访问效率变低

hadoop动态增加和删除节点方法介绍

09-30

4. **刷新NameNode**：在NameNode节点上，使用`dfsadmin`命令刷新节点列表，确保NameNode知道新节点的存在： ``` bin/hdfs dfsadmin -refreshNodes ``` 并运行`start-balancer.sh`来平衡集群的存储负载： ``` ...

hadoop JOB的性能优化实践

iteye_773的博客

12-26

219

使用了几个月的hadoopMR，对遇到过的性能问题做点笔记，这里只涉及job的性能优化，没有接触到 hadoop集群，操作系统，任务调度策略这些方面的问题。 hadoop MR在做大数据量分析时候有限的计算资源情况下只能不断的优化程序。优化可以从两个方面进行： 1.hadoop配置 2.程序代码程序代码包括的方面很多：job设计，算法，数据结构，代码编写。 hadoop配置优化 ...

hadoop job 内存溢出

双湖之梦的专栏

01-31

2899

在进行mapreduce任务性能测试的时候，在Shuffle的时候，老是会报java.lang.OutOfMemoryError内存溢出错误.

Hadoop内存超限的解决方法

sinat_42576642的博客

01-08

1256

Hadoop内存超限的解决方法解决方法解决方法当运行hql时，有时会提示内存超限，这是只需要修改一个配置就可以完美的解决。 set stream.memory.limit=1600; 添加此配置的前提是以下两个配置都为 false，默认值为 false，如果没有刻意的修改，可以忽略。 set abaci.use.hard.limit=false; set abaci.use.memory.hard.limit=false; ...

到底多高的负载才算高负载?

热门推荐

kobejayandy的专栏

05-03

2万+

到底多高的负载才算高负载?

关于负载均衡技术使用的一些误区

weixin_33797791的博客

04-12

129

如今，负载均衡已经不是一个新鲜的词，也不是什么新技术，主要用于解决单机负载能力的局限性，但问题是你的应用真的到了单机的负载上限了吗，未必，很多不知道如何推断瓶颈，如何解决问题的人就开始盲目的增加机器，似乎只要能加机器，性能就都不是问题，负载均衡技术成了这类人心中的白马，一台机器能搞定的事你用了10台，这显然是成本问题。其实很多问题都可以很简单的解决，看以下场景1、一个数据库服...

hadoop 性能调优与运维

weixin_30628801的博客

12-23

292

hadoop 性能调优与运维 1. 硬件选择 2. 操作系统调优与jvm调优 3. hadoop参数调优4. hadoop运维硬件选择 1) hadoop运行环境 2) 原则一：主节点可靠性要好于从节点　原则二：多路多核，高频率cpu、大内存， namenode 100万文件的元数据要消耗800M内存，内存决定了集群保存文件数的总量， r...

hadoop集群的datanode负载高问题的排查过程记录

weixin_34150224的博客

06-20

1002

为什么80%的码农都做不了架构师？>>> ...

hdfs某台服务器datanode服务占用cpu过高

wyl9527的博客

08-28

2640

1、问题描述查看一下6834的进程是hadoop的datanode服务，可以看到cpu负载过高。2、解决方法（1）关闭大页内存：echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag && echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled

IBM SmartCloud Enterprise上的Hadoop大数据分析实践

本文介绍了如何在IBM SmartCloud Enterprise上构建基于Hadoop的数据分析系统，通过使用InfoSphere BigInsights Basic版本，展示了一个由三个节点组成的Hadoop集群的部署和验证过程。在当今数字化时代，云计算和大...