Red Hat Enterprise Linux 7 представила новый механизм аппаратных отчетов о событиях (HERM).
Этот механизм собирает сообщаемые системой системные ошибки памяти, ошибки, сообщаемые механизмом обнаружения и исправления ошибок (EDAC) двухканальных модулей памяти (DIMM), сообщает о них в пространство пользователя.
Пользовательский демон rasdaemon отслеживает и обрабатывает все ошибки, связанные с надежностью, доступностью и удобством обслуживания (RAS), которые происходят из механизма трассировки ядра, и регистрирует их.
Функции, ранее предоставленные edac-utils, теперь заменены rasdaemon.
Чтобы установить rasdaemon, введите в качестве пользователя root следующую команду:
# yum install rasdaemon
Запустите сервис следующим образом:
# systemctl start rasdaemon
Чтобы запустить службу при запуске системы, введите следующую команду:
# systemctl enable rasdaemon
Утилита ras-mc-ctl предоставляет средства для работы с драйверами EDAC. Введите следующую команду, чтобы увидеть список параметров команды:
# ras-mc-ctl --help Usage: ras-mc-ctl [OPTIONS...] --quiet Quiet operation. --mainboard Print mainboard vendor and model for this hardware. --status Print status of EDAC drivers. вывод обрезан
Чтобы просмотреть сводку событий контроллера памяти, запустите от имени пользователя root:
# ras-mc-ctl --summary Memory controller events summary: Corrected on DIMM Label(s): 'CPU_SrcID#0_Ha#0_Chan#0_DIMM#0' location: 0:0:0:-1 errors: 1
No PCIe AER errors.
No Extlog errors. MCE records summary: 1 MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error errors 2 No Error errors
Чтобы просмотреть список ошибок, о которых сообщает контроллер памяти, запустите от имени пользователя root:
# ras-mc-ctl --errors Memory controller events: 1 3172-02-17 00:47:01 -0500 1 Corrected error(s): memory read error at CPU_SrcID#0_Ha#0_Chan#0_DIMM#0 location: 0:0:0:-1, addr 65928, grain 7, syndrome 0 area:DRAM err_code:0001:0090 socket:0 ha:0 channel_mask:1 rank:0