CPU_SrcID#1_Channel#0_DIMM#0error(s): memory scrubbing on FATAL area OVERFLOW 求解

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
Sep 27 22:29:09 athCompute77 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0"2 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c2 (ch=2), addr = 0xbfd630000 => socket=1, Channel=0(mask=1), rank=1
 
Sep 27 22:29:09 athCompute77 kernel: 
 
Sep 27 22:29:09 athCompute77 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0"2 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c2 (ch=2), addr = 0xbfd630000 => socket=1, Channel=0(mask=1), rank=1
 
Sep 27 22:29:09 athCompute77 kernel: 
 
Sep 27 22:29:09 athCompute77 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0"1 Unknown error(s): memory scrubbing on FATAL area : cpu=1 Err=0008:00c2 (ch=2), addr = 0xbfd630000 => socket=1, Channel=0(mask=1), rank=1
 
Sep 27 22:29:09 athCompute77 kernel: 
 
Sep 27 22:29:09 athCompute77 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0"1 Unknown error(s): memory scrubbing on FATAL area : cpu=1 Err=0008:00c2 (ch=2), addr = 0xbfd630000 => socket=1, Channel=0(mask=1), rank=1
 
Sep 27 22:29:09 athCompute77 kernel: 
 
Sep 27 22:29:09 athCompute77 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0"1 Unknown error(s): memory scrubbing on FATAL area : cpu=1 Err=0008:00c2 (ch=2), addr = 0xbfd630000 => socket=1, Channel=0(mask=1), rank=1
 
Sep 27 22:29:09 athCompute77 kernel: 
 
Sep 27 22:29:09 athCompute77 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0"1 Unknown error(s): memory scrubbing on FATAL area : cpu=1 Err=0008:00c2 (ch=2), addr = 0xbfd631000 => socket=1, Channel=0(mask=1), rank=1
 
Sep 27 22:29:09 athCompute77 kernel: 
 
Sep 27 22:29:09 athCompute77 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0"1 Unknown error(s): memory scrubbing on FATAL area : cpu=1 Err=0008:00c2 (ch=2), addr = 0xbfd631000 => socket=1, Channel=0(mask=1), rank=1
 
Sep 27 22:29:09 athCompute77 kernel: 
 
Sep 27 22:29:09 athCompute77 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0"1 Unknown error(s): memory scrubbing on FATAL area : cpu=1 Err=0008:00c2 (ch=2), addr = 0xbfd631000 => socket=1, Channel=0(mask=1), rank=1
 
Sep 27 22:29:09 athCompute77 kernel: 
 
Sep 27 22:29:09 athCompute77 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0"1 Unknown error(s): memory scrubbing on FATAL area : cpu=1 Err=0008:00c2 (ch=2), addr = 0xbfd631000 => socket=1, Channel=0(mask=1), rank=1

求解:

     。。。哪位大侠懂?给出建议!


本文转自 swq499809608 51CTO博客,原文链接:http://blog.51cto.com/swq499809608/1558891

### 排查 dmesg 日志中关于内存校正错误的问题 在排查 `dmesg` 日志中关于内存校正错误(Corrected Error)的问题时,需要结合日志中的具体信息进行分析。以下内容提供了可能的解决方案和建议。 #### 1. 分析 dmesg 日志中的关键信息 从提供的日志来看,存在以下关键字段: - **MCE (Machine Check Exception)**:表示机器检查异常。 - **CPU 0**:错误发生在 CPU 0 上。 - **Bank 5**:错误的具体存储位置。 - **ADDR 67081b300**:错误发生的内存地址。 - **PROCESSOR 0:206d7**:处理器型号及相关信息。 - **SOCKET 0 APIC 0**:错误涉及的物理插槽和 APIC 编号。 - **EDAC MC0: CE row 2, channel 0**:EDAC 模块检测到的校正错误信息,涉及第 2 行、第 0 通道。 这些信息表明内存校正错误与特定的 DIMM 和通道相关[^1]。 #### 2. 定位问题内存模块 根据日志中的信息,可以进一步定位具体的内存模块。例如: - **CPU_SrcID#0_Channel#3_DIMM#0**:错误发生在 CPU 0 的第 3 通道、DIMM 0 上。 - **Channel=3(mask=8), rank=0**:错误涉及第 3 通道、rank 0 的内存。 可以通过以下步骤确认问题内存模块: - 查看服务器主板上的 DIMM 插槽布局图。 - 根据日志中的 `Channel` 和 `DIMM` 编号找到对应的物理内存条。 #### 3. 检查硬件健康状态 使用 BMC 或 iDRAC 等管理工具检查硬件健康状态。如果发现内存相关的警告或错误记录,可作为进一步验证的依据[^3]。 #### 4. 更新 BIOS 和固件 确保服务器的 BIOS 和固件为最新版本。旧版本的 BIOS 或固件可能存在兼容性问题或无法正确处理某些硬件错误。更新后重新检查 `dmesg` 日志以确认问题是否解决[^3]。 #### 5. 替换可疑内存模块 如果确认某块内存模块频繁出现校正错误,建议将其替换为新的内存条。更换后重新启动服务器并监控 `dmesg` 日志,确保不再出现类似错误[^1]。 #### 6. 调整内存 ECC 配置 某些服务器支持调整 ECC(Error-Correcting Code)配置以减少校正错误的发生频率。可以通过 BIOS 设置启用更强的 ECC 检测机制,但需注意这可能会对性能产生一定影响[^2]。 #### 7. 监控和预防措施 为了提前发现潜在的内存问题,可以定期检查 `dmesg` 日志和 BMC 记录的 SEL 日志。此外,启用内存健康监控工具(如 ipmitool 或其他管理软件),以便实时跟踪内存状态[^3]。 ```bash # 示例:查看 dmesg 日志中与内存错误相关的记录 dmesg | grep -i "error\|mce" ``` --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值