Hot spare

Hot spare (горячий резерв) — диск, установленный в RAID-массив или серверную СХД в режиме standby. Он потребляет питание и прогрет, но не хранит пользовательских данных. При отказе любого рабочего диска RAID-контроллер автоматически начинает rebuild: данные восстанавливаются с рабочих дисков на hot spare без вмешательства администратора. Это критично для снижения времени уязвимости массива (MTTR — Mean Time To Repair).

Типы резервных дисков

Hot spare (горячий) — в системе, под питанием, готов немедленно. Rebuild начинается автоматически в течение 1–5 минут после отказа.
Warm spare (тёплый) — установлен, но без питания. Требует ручного включения или автоматического BIOS-триггера.
Cold spare (холодный) — на складе, требует физической установки. Время реакции — часы или дни.
Global spare — один hot spare на несколько RAID-массивов: может использоваться для восстановления любого из них.

Как работает hot spare на практике

При отказе диска в RAID 1 или RAID 5: контроллер помечает диск как failed, активирует hot spare и запускает rebuild. Скорость rebuild: для HDD 4 ТБ — 5–15 часов, для SSD SATA 1 ТБ — 1–3 часа, для NVMe 2 ТБ — 20–60 минут. Во время rebuild RAID-массив работает в degraded-режиме — I/O-производительность снижается на 20–40%. Второй отказ диска во время rebuild — потеря данных (для RAID 5 и RAID 1 без дополнительного spare).

История

Концепция hot spare появилась вместе с первыми коммерческими RAID-контроллерами в 1990–1993 годах (Compaq SmartArray, IBM ServeRAID). До появления hot spare администраторы дежурили у стойки после сигнала об отказе диска — rebuild нужно было запустить вручную. Современные контроллеры (LSI MegaRAID, HPE Smart Array, Dell PERC) поддерживают глобальные и выделенные hot spare, автоматический rebuild, email-уведомления.

Hot spare и стратегия бэкапов

Hot spare сокращает время уязвимости RAID, но не является заменой резервного копирования. Оптимальная стратегия для выделенного сервера: RAID 1 или RAID 10 с hot spare + ежедневные инкрементальные бэкапы на отдельный storage + еженедельный полный бэкап offsite. При сбое одного диска hot spare автоматически восстанавливает RAID. При логическом повреждении данных или случайном удалении — только бэкап поможет.

Глобальные hot spare и пулы

В крупных дисковых массивах (NetApp, EMC, HPE 3PAR) hot spare настраивается на уровне хранилища: один диск резервирует несколько RAID-групп или всё хранилище. Рекомендация для production: 1 hot spare на каждые 30–50 рабочих дисков. В ZFS роль hot spare выполняет spare-устройство в пуле: zpool add poolname spare /dev/sde. При отказе VDEV ZFS автоматически начинает resilver (аналог rebuild) на spare-диск. Resilver в ZFS умнее чем RAID rebuild: он перезаписывает только блоки, которые действительно используются в файловой системе, а не все секторы подряд.

Hot spare и SSD: особенности

Для SSD-массивов hot spare работает аналогично HDD, но rebuild происходит значительно быстрее. SSD 2 ТБ: rebuild в RAID 5 — 30–90 минут против 15–30 часов для HDD того же объёма. Предупреждение: SSD имеют ограниченный ресурс записи (TBW — Total Bytes Written). Rebuild интенсивно нагружает spare-диск: одна операция rebuild записывает несколько ТБ — учитывайте TBW при выборе spare. Enterprise SSD (HGST Ultrastar, Samsung PM9A3) имеют TBW 1–10 ПБ — достаточно для многолетней эксплуатации. Consumer SSD (240–480 ГБ, TBW 100–200 ТБ) для hot spare в серверном RAID не подходят.