集群中有一台机器不稳定,在运行mapreduce和bsp任务时经常会出现IO错误,比如读取文本文件时,会出现只读出半行或者少量乱码的问题。在使用rdf3x的时候,load数据时也会出错。平时那台机器似乎又没什么异常。
一直以为是硬盘的问题,排查了很久,最后发现是内存的问题,换了内存就好了。
使用普通台式机(不带内存ECC校验)搭建集群的童鞋一定要注意,集群出现IO错误不一定是磁盘的问题,内存也是怀疑对象之一。
本文介绍了一次集群中出现IO错误的排查经历。最初怀疑是硬盘问题,最终确定为内存故障导致,并分享了这一经验教训。
集群中有一台机器不稳定,在运行mapreduce和bsp任务时经常会出现IO错误,比如读取文本文件时,会出现只读出半行或者少量乱码的问题。在使用rdf3x的时候,load数据时也会出错。平时那台机器似乎又没什么异常。
一直以为是硬盘的问题,排查了很久,最后发现是内存的问题,换了内存就好了。
使用普通台式机(不带内存ECC校验)搭建集群的童鞋一定要注意,集群出现IO错误不一定是磁盘的问题,内存也是怀疑对象之一。
1739
256
1238

被折叠的 条评论
为什么被折叠?