- 博客(3)
- 收藏
- 关注
原创 CannotObtainBlockLengthException问题分析
用户反馈MR任务失败,通过查看job的diagnose信息,发现如下异常 另外需要交待一下背景,下午发生2个datanode机器同时宕机的问题,我们是有2副本的数据的,因此当2个datanode同时失效,一定会有一定比例的块丢失,在这两个datanode恢复一个之前,一定又有hdfs的客户端报错Missing Block。 本文这个问题更加特殊,在这个任务失败前,2个宕机节点都已经恢复了,不存在missing block。 所以这个情况给了我们一个非常重要的警示,即使不存在missing bloc
2020-11-11 15:54:38
663
原创 新手如何管理好一个hadoop集群?
hadoop作为一门拥有很多年历史的技术,虽然公开资料很多,但对于企业生产环境到底怎样管理好一个hadoop集群资料还是很少的。从今天开始,笔者会将几年来hadoop在生产环境管理经验介绍给各位,希望可以帮助到大家。 1、首先说使用哪个版本的hadoop,如果你碰巧有从0到1建设一家公司hadoop的机会的话,建议使用较新的版本,原因如下: hadoop是个一旦使用就会应用在很多台节点的服务,升级版本是重量级的操作; 现实来说,99%的公司对于hadoop都没有什么深度定制能力,大概率你给你们ha..
2020-10-31 11:40:26
257
原创 记一次hbase的TTL功能不生效问题
最近接手了一个的hbase和hadoop的小集群,被告知hbase有TTL不生效的问题(磁盘未释放),做个记录 hbase版本1.2.7 hdfs版本2.7.5 问题描述: hbase中所有的表都配置了TTL,然而hdfs使用量依然不断增加,直至磁盘打满,datanode全挂。 解决过程: 1、在我负责接手这部分服务后,了解到之前伙伴的处理方式简直简单粗暴,每次出现问题,直接rm -rf datanode数据目录下的 BP-XXXXX目录。。。终于知道hdfs为什么会有9000+个corrupt
2020-06-30 13:30:09
1320
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人