
大数据运维
文章平均质量分 63
孙看看
努力学习大数据知识
展开
-
记录一次 Hadoop Namenode 暂停时间过长故障
最近使用 HUE 的时,在浏览 hdfs 文件切换目录的时候,经常会出现卡住的现象,点进某个目录就一直转圈圈,并且 Yarn 上的任务跑的也很慢。出现这种情况怀疑是集群出现什么问题了,于是通过 CDH 管理界面查看,果然存在一个异常,描述信息是暂停持续时间,在前 5 分众内暂停所花的平均时间是每分钟 37.8秒(63.00%)。临界阈值:60%因为 Namenode 也是基于 JVM 实现的,这种情况一般都是(堆)内存不够,hdfs 使用过程中存储的文件越来越多,占用的内存也就越来越大。原创 2023-07-04 10:54:49 · 616 阅读 · 0 评论 -
Hive 使用 create table as 语句出现 java.io.IOException: Filesystem closed 异常
最近在使用新搭建的 Hive 环境进行测试的时候出现了莫名的错误信息 java.io.IOException: Filesystem closed,最一开始搭建的时候,进行建表、数据查询等操作都没有这个问题,直到最近才发现这个问题,具体的报错信息如下。查看报错信息也没有找到具体的原因,只有文件 IO 异常。后来找到了原因,是 create table as select xxx 这种类型的 sql 导致 Hive 与 Hdfs 交互时文件未正常关闭,所以将问题以及解决方案在此记录一下。原创 2023-05-21 16:37:59 · 788 阅读 · 1 评论 -
记录一次线上 Yarn 集群故障 - 集群资源 “缩水“ 问题
分享一下最近遇到的 Yarn 集群故障的问题,主要还是自己没有深入研究 Yarn 的相关参数导致的,分享给大家,避免出现一样的问题。51 假期回来发现集群上好多任务,Yarn 集群资源占用率到了 90%,并且很多任务都是 ACCEPT 状态根本分配不到资源来跑。到这就去检查集群上的任务,看看是不是有人乱申请资源提交任务,看了一圈也没发现有什么异常,去 CDH 上看了一下,发现 Hdfs 服务很多红色告警,都是提示磁盘空间不足(其实也在做数据冷备出库,但是一直没降下来),也没在意想着 Hdfs 有问题也不关原创 2023-05-13 13:07:44 · 475 阅读 · 0 评论