记一次HDFS容量失误事件

本文记录了新集群中115节点磁盘爆满的问题,详细介绍了使用df-h、hadoop dfsadmin-report及MegaRAID工具检查磁盘容量的过程。问题在于虚机115的数据集中于单一磁盘,导致容量不足。最终通过移除115节点解决了该问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

新集群有8台电脑(还在不断迁移集群),在2018年9月11日,发生了115节点的磁盘爆满的问题。
#通过df -h命令获取容量
得到结果为3.7T
#通过hadoop dfsadmin -report获取容量
这里写图片描述
可以看到认为是12.56TB数据
#通过MegaRAID查看
/opt/MegaRAID/MegaCli/./MegaCli64 -PDList -aALL | egrep ‘Adapter|Enclosure Device ID|Coerced Size|Drive Temperature|PD Type|Slot|Inquiry’
结果显示:
这里写图片描述

#国外
https://stackoverflow.com/questions/48710784/hdfs-configured-capacity-higher-than-disk-capacity
#原因
115是虚机,data1,data0,都在一个盘中,所以出现了问题
#修复
移除115节点

Dolphinscheduler是一个开源的任务调度系统,用于管理各种任务流并提供统一的API接口供上层应用使用。当用户在Dolphinscheduler中尝试上传文件到HDFS(Hadoop分布式文件系统),并且遇到“HDFS操作错误”的情况,通常表明在进行文件上传的过程中发生了某个异常。这种错误可能是由多种原因引起的: ### 错误原因分析: 1. **权限问题**:可能是因为当前登录用户的HDFS权限不足,无法将文件上传至指定目录。 2. **网络连接问题**:网络不稳定或是防火墙设置导致的连接失败。 3. **配置错误**:Dolphinscheduler服务端或客户端的配置可能存在错误,比如HDFS的地址、端口、用户名等信息配置不正确。 4. **HDFS资源不足**:目标目录的空间已满或其他资源限制导致的失败。 5. **程序错误**:Dolphinscheduler的内部逻辑存在错误,如异常处理机制未能正确捕获和响应错误。 6. **临时故障**:暂时性的系统负载过高、服务器故障等情况也可能导致此类问题。 ### 解决步骤: 1. **检查权限**:确认上传用户是否拥有足够的权限访问HDFS的指定路径,并检查用户的身份认证机制是否正常工作。 2. **验证配置**:检查Dolphinscheduler的服务端和客户端配置文件中HDFS的相关配置,包括地址、端口、用户名等,确保它们与实际使用的环境匹配。 3. **调试日志**:查看Dolphinscheduler的日志文件,特别是与HDFS交互相关的日志条目,以获取更详细的错误信息和上下文,这有助于定位具体的问题点。 4. **网络诊断**:如果怀疑是网络问题,可以测试从本地主机到HDFS服务器的网络连通性和数据传输能力。 5. **资源监控**:检查HDFS服务器的资源使用状况,如空间容量、CPU和内存使用率,确保有足够的资源用于文件上传。 6. **重启服务**:有时候简单的重启Dolphinscheduler服务或相关组件可以帮助解决由于缓存或临时状态错误引起的问题。 7. **求助社区**:如果上述步骤都无法解决问题,可以考虑在技术论坛或GitHub仓库提交问题报告,寻求其他开发者或专家的帮助。 通过以上步骤逐步排查和解决Dolphinscheduler上传文件到HDFS时的“HDFS操作错误”,通常能够有效定位并解决该类问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值