К основному контенту

Сбой в RAID-10 причины и методы решения проблемы

ссылки по теме:

восстановление RAID

http://3nity.ru/viewtopic.php?f=24&t=12433

Ситуация
Стоит RAID10+, Утилита SAM, Почтовый сервер.
Пришло письма от утилиты SAM деградация рейда в 22 часа, диск не отвечает на запросы, начало перестройки, затем приходит в 0 часов два письма: рэйд перестроен и рэйд нормально функционирует.
утром утилита показывает картинку:

image

Это значит 1 диск перестал работать, и программа показала Failed диск, это задействовало процесс деградации массива в более низкий уровень 10, теперь массив работает только на 4х дисках.

Возможные причины возникновения:
в 21 час была нагрузка на диски при записи бэкапа на рэйд с внешнего системного диска SATA, бэкап получился размером в 1 Гб. Тот самый диск на котором было замечено торможение системы при копировании с диска на массив.

Возможно и сбоил сам контроллер, включенный WriteBack кэш на рэйде способствует сбоям контроллера.

Люди с опытом пишут:

Я как и вы задался вопросом сохранности данных на домашнем NAS. Изначально был выбран Intel Matrix RAID-5, однако напрягали иногда случающиеся ребилды. Кроме того я узнал, что у RAID-5 есть изъян - т.н. "write hole". Если внезапно пропадет питание или система повиснет, и при этом что-то записывалось на массив, может произойти частичная потеря этих данных. В "умных" контроллерах это решается бэкап батареей.
После этого я пришел к решению, на котором NAS работает уже полтора года - RAID-Z на ZFS. Работает либо в родной Solaris либо на FreeBSD, у меня как раз последняя. Если встречает ошибки чтения/записи, сразу сыпет варнинги на консоль. Нет привязки в конкретным портам контроллера, массив легко портируется на другую ОС с поддержкой ZFS. Постоянно идет проверка чётности, даже если винт делает ремап, не теряется ни байта данных. Только ставьте 64-битную ОС (ей не нужен тюнинг для работы с ZFS) и побольше памяти, ZFS её очень кушает

продолжение следует…

Комментарии

Популярные сообщения из этого блога

Русская кодировка ASCII, ANSI и UTF-8, windows-1251 (CR, LF, CR LF)

Что нужно знать: Encoding – это кодировка для вывода данных (UTF-8, windows-1251) Line Endings – формат строк (CR, LF, CR LF) Byte Order Marker (BOM) – системная область в начале файла. LF – используется в UNIX вместе с кодировками UTF-8 или windows-1251 CR – используется в MAC системах. на сервере лучше использовать кодировку ANSI это и есть кириллица (Windows), символ занимает 1 байт (оптимизированный ASCII) UTF-8 может содержать заголовок BOM который содержит системную информацию, символ занимает 2 байта wysiwyg редакторы добавляют метатег в html страницы с кодировкой кирилицы. это не очень хорошо, если сервер настроен на UTF-8, в этой кодировке корректно работают некоторые библиотеки приложения и прочие

Как узнать время включения/выключения компьютера.

Способов масса, одни из них: в журнале событий windows  выбрать eventlog, теперь в таблице легко найти события с кодами: 6005 - событие остановки eventlog - компьютер выключился 6006 - событие запуска eventlog - компьютер включился обычно эта служба запускается и остонавли во время включения/выключения компьютера, и пишет в журнале событий системы код события и время.

Сделать свой Трекер

Что надо для того что-бы установить и поддерживать трекер на базе TBdev в рабочем состоянии:    1. Веб-сервер с поддержкой PHP (например Apache или LightTPD).    2. PHP версии 5.1.1 или выше.    3. Сервер базы данных mySQL версии 4.1 или выше, лучше 5.0.    4. Любая оболочка для работы с СУБД mySQL (например phpMyAdmin 2.9.2 или EMS SQL Manager 2007 Pro for mySQL. Так-же важными компонентами являются:    1. Прямые руки v1.0    2. Базовое знание английского языка.    3. Понимание принципа "Понимание ошибки - половина ее решения". Рабочее окружение в котором трекер разрабатывается (поможет создать похожее на вашем хостинге и улучшить работу трекера) и работает лучше всего:    1. Веб-сервер LightTPD 1.4.16 скомпилированный под ОС Windows.    2. PHP 5.2.1 скомпилированный в режиме Fast-CGI.    3. Сервер базы данных mySQL версии 4.1.16.