如何对Dell PowerEdge服务器上的PERC控制器上的内存或电池错误进行故障诊断
本文提供如何对Dell PowerEdge服务器上的Dell PERC控制器上可能出现的“Memory/battery problems were detected. The adapter has recovered, but cached data was lost. Press any key to continue”(检测到内存/电池问题。适配器已恢复,但缓存数据丢失。按任意键继续)错误及其它内存相关的错误进行故障诊断。
目录:
-
开机自检期间出现RAID控制器错误信息
-
导致错误信息的故障诊断条件
-
重新引导至操作系统
-
清除控制器高速缓存
-
检查物理PERC控制器
-
其它信息
-
PERC电池维护
-
高速缓存使用
1. 开机自检期间出现RAID控制器错误信息
开机自检期间,RAID控制器出现消息:
检测到内存/电池故障。 The adapter has recovered but cache data may be lost.(检测到内存/电池问题。适配器已恢复,但缓存数据丢失。) Press any key to continue.
对于液晶屏上显示的或在运行诊断程序时出现的错误,请参阅以下文章:
解读液晶屏和嵌入式诊断程序(ePSA)事件消息。
返回页首
2. 导致错误信息的故障诊断条件
此消息通常在出现以下情况之一时出现。 对关联事件进行故障诊断也能阻止此消息出现。
-
操作系统指示异常关机。
-
操作系统指示出现错误(Windows出现蓝屏)。
-
自行断电情况。
常见故障诊断步骤包括:
1. 重新引导至操作系统
如果操作系统引导成功,则再次重新引导应该不会再显示消息。
2. 清除控制器高速缓存
-
SCSI控制器(PERC 3、PERC 4):按CTRL-M。
-
SAS/SATA控制器(PERC 5、PERC 6和更新的控制器):按CTRL-R。
-
等待5分钟以清除缓存内容。
-
重新引导至控制器BIOS。
注意:如果错误仍然存在,则硬件错误的可能性很大。 请联系技术支持以了解进一步的故障诊断步骤。
-
如果错误消除,则引导至操作系统。
-
如果操作系统引导仍然不成功和/或错误仍然存在,这可能表明是操作系统问题。 如果您拥有任何有效保修,请联系技术支持以了解进一步的故障诊断步骤。
返回页首
3. 检查物理PERC控制器
-
检查DIMM和DIMM插槽是否损坏。
-
关机并拔下电源线。
-
等待 30秒钟,让系统释放弱电。
-
卸下PERC控制器。 有关卸下和更换此系统中的部件的详细说明,请参阅戴尔支持站点上的“User's Guide”(用户指南)。
-
卸下RAID内存电池。 请记住,插入DIMM后再重新安装内存电池。
-
从控制器中取出内存DIMM(如果适用)。
-
检查DIMM插槽的针脚是否弯曲或有其它损坏。 检查内存DIMM的边缘连接器是否有任何损坏。
-
如果控制器具有嵌入式内存或内存插槽已损坏,将需要更换PERC控制器。
-
如果内存已损坏,则需要更换控制器内存。
-
如果没有损坏,则更换内存DIMM,然后重新安装控制器。
-
将控制器内存与已知良好的内存交换(如果可能)。
-
没有已知良好的内存可用:联系支持人员。
-
已知良好的内存没有发生错误:更换内存。
-
已知良好的内存仍然出现错误:更换PERC控制器。
返回页首
3. 其它信息
此错误消息在开机自检时显示,表示控制器高速缓存未包含所有应有的信息,或者包含要写入到硬盘但无法写入或尚未写入的数据。 出现此错误最常见的原因有:
-
服务器没有执行正常的关机过程 - 断电和/或自行重新启动可导致不完整或损坏的数据保留在高速缓存中,无法写入硬盘。
-
高速缓存内存故障 - 有故障的高速缓存内存会导致数据损坏。 这会引起操作系统相关问题和自行重新启动。
-
关闭服务器时电池断电 - 服务器未开机时,不使用NVCACHE(非易失性高速缓存)内存的控制器利用可以保留高速缓存内容一段时间(24-72个小时)的电池。 一旦电池耗尽,整个高速缓存的内容将丢失,控制器会发现高速缓存内存没有包含所有应有的信息。 使用NVCache(一些H700/H800控制器和较新的控制器,如H710、H710P、H810)的控制器不太可能出现此问题,因为大多数情况下,电池仅需要保持通电30秒或更短时间。
返回页首
1. PERC电池维护
对于怀疑出现故障或在OpenManage Server Administrator (OMSA)中显示了警告符号的PERC电池,应手动执行学习周期。 学习周期导致电池放电和充电,并会将电池还原到完全正常工作状态。 在某些情况下,可能需要多个学习周期步骤才能将电池还原至有效充电状态。 要执行手动学习周期,请在OMSA中的Battery Tasks(“电池任务”)下拉列表中选择Start Learn Cycle(“启动学习周期”)。

图1:OMSA Battery Tasks(“OMSA电池任务”)下拉菜单
返回页首
2. 高速缓存使用
硬件RAID控制器使用高速缓存(一个临时的信息库)进行正常操作。 正常操作高速缓存由DRAM内存(与系统内存类似)构成,仅在开机时保留数据。
较新控制器使用NVCache,在服务器关闭时使用。 NVCache内存同时包含DRAM内存(用于正常操作)和闪存(非易失)。 断电时,控制器电池(如果正常)为DRAM内存供电,因此,内容可以复制到闪存中进行无限期存储。
高速缓存的内容基本上可以分为三个部分:
-
RAID配置和元数据 - 有关RAID阵列的信息,包括配置信息、磁盘成员、磁盘角色等。
-
控制器日志 - RAID控制器保留着多个日志文件。 戴尔技术人员依赖TTY日志作为对各种RAID和硬盘问题进行故障诊断的主要日志。
-
RAID数据 - 这是要写入各个硬盘的实际数据。 数据以直写和回写高速缓存政策模式写入控制器的高速缓存。
-