Проект «SnakeProject» Михаила КозловаРегистрация

Навигация
⇒FreeBSD and Nix⇒

⇐CISCO
⇐Voice(Asterisk\Cisco)
⇐Microsoft
⇐Powershell
⇐Python
⇐SQL\T-SQL
⇐1С
⇐Общая
⇐WEB Разработка
⇐ORACLE SQL \ JAVA
⇐Мото

Centos 7: Проверка на наличие аппаратных ошибок


 

Centos 7: Проверка на наличие аппаратных ошибок


Оригинал статьи тут, данная статья - перевод
https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/7/html/system_administrators_guide/sec-checking_for_hardware_errors


Red Hat Enterprise Linux 7 представила новый механизм аппаратных отчетов о событиях (HERM).
Этот механизм собирает сообщаемые системой системные ошибки памяти, ошибки, сообщаемые механизмом обнаружения и исправления ошибок (EDAC) двухканальных модулей памяти (DIMM), сообщает о них в пространство пользователя.
Пользовательский демон rasdaemon отслеживает и обрабатывает все ошибки, связанные с надежностью, доступностью и удобством обслуживания (RAS), которые происходят из механизма трассировки ядра, и регистрирует их.
Функции, ранее предоставленные edac-utils, теперь заменены rasdaemon.


Чтобы установить rasdaemon, введите в качестве пользователя root следующую команду:
# yum install rasdaemon


Запустите сервис следующим образом:
# systemctl start rasdaemon


Чтобы запустить службу при запуске системы, введите следующую команду:
# systemctl enable rasdaemon


Утилита ras-mc-ctl предоставляет средства для работы с драйверами EDAC.
Введите следующую команду, чтобы увидеть список параметров команды:
# ras-mc-ctl --help
Usage: ras-mc-ctl [OPTIONS...]
 --quiet            Quiet operation.
 --mainboard        Print mainboard vendor and model for this hardware.
 --status           Print status of EDAC drivers.
вывод обрезан


Чтобы просмотреть сводку событий контроллера памяти, запустите от имени пользователя root:
# ras-mc-ctl --summary
Memory controller events summary:
        Corrected on DIMM Label(s): 'CPU_SrcID#0_Ha#0_Chan#0_DIMM#0' location: 0:0:0:-1 errors: 1

No PCIe AER errors.

No Extlog errors.
MCE records summary:
        1 MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error errors
        2 No Error errors


Чтобы просмотреть список ошибок, о которых сообщает контроллер памяти, запустите от имени пользователя root:
# ras-mc-ctl --errors
Memory controller events:
1 3172-02-17 00:47:01 -0500 1 Corrected error(s): memory read error at CPU_SrcID#0_Ha#0_Chan#0_DIMM#0 location: 0:0:0:-1, addr 65928, grain 7, syndrome 0  area:DRAM err_code:0001:0090 socket:0 ha:0 channel_mask:1 rank:0

No PCIe AER errors.

No Extlog errors.

MCE events:
1 3171-11-09 06:20:21 -0500 error: MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error, mcg mcgstatus=0, mci Corrected_error, n_errors=1, mcgcap=0x01000c16, status=0x8c00004000010090, addr=0x1018893000, misc=0x15020a086, walltime=0x57e96780, cpuid=0x00050663, bank=0x00000007
2 3205-06-22 00:13:41 -0400 error: No Error, mcg mcgstatus=0, mci Corrected_error Error_enabled, mcgcap=0x01000c16, status=0x9400000000000000, addr=0x0000abcd, walltime=0x57e967ea, cpuid=0x00050663, bank=0x00000001
3 3205-06-22 00:13:41 -0400 error: No Error, mcg mcgstatus=0, mci Corrected_error Error_enabled, mcgcap=0x01000c16, status=0x9400000000000000, addr=0x00001234, walltime=0x57e967ea, cpu=0x00000001, cpuid=0x00050663, apicid=0x00000002, bank=0x00000002


Эти команды также описаны на странице руководства ras-mc-ctl (8).

 


Комментарии пользователей

Эту новость ещё не комментировалиНаписать комментарий
Анонимам нельзя оставоять комментарии, зарегистрируйтесь!

© Snakeproject.ru создан в 2013 году. При копировании материала с сайта - оставьте ссылку.


Яндекс.Метрика

Goon Каталог сайтов Рейтинг@Mail.ru