设备型号:jinnianhui R722
主板型号:S920X00-7260-AH 2*(920,64C)1711
BMC芯片:1711版
BMC版本:(U82)3.03.00.23
BIOS 版本: (U75)1.88
CPLD版本:(U6076)6.03
RAID控制器:9460-8i
RAID控制器固件版本:5.130.00-3059
客户报障现场1台服务器BBU告警,但更换BBU电池后仍继续告警,需查明原因并解决
1.?首先查看日志中当前告警记录,发现当前存在告警,详情为BBU电压过低与BBU模块故障。

查看sel事件日志记录,发现日志打印最早于2023/12/28 16:40:05已出现BBU故障告警

2.?进一步分析RAID_Controller_Info日志,RAID卡健康状态为“Normal”,BBU状态为在位,但健康状态异常。

3.?分析fdm_output诊断日志,未发现其他异常打印。

4.?查看operate_log操作日志,故障发生前仅有服务器开机操作,未发现其他异常。

5.?查看设备传感器信息,发现BBU?樽刺斐!

6.?分析LSI_RAID_Controller_Log,日志记录到BBU电池故障,数据保护功能失效。

7.??结合上述情况,初步判断为BBU?楣收希枰籅BU?椋殖≡3/20更换BBU?楹蠓蠢∪杂懈婢

8.?再次分析LSI_RAID_Controller_Log日志,更换新BBU?楹螅绯刈远汲涞纾涞绾螅远紃elearn,但relearn超时,判断可能RAID卡故障导致relearn失败。

综上所述,该设备故障原因为Raid卡与BBU?楣收
更换故障BBU与RAID卡解决