Пятница. Поздний вечер.
Сообщение в рабочий чат, короткое, как выстрел:
“1С не поднимается. Файлы не открываются. Срочно.”
Дальше почти всегда один и тот же диалог, который ИТ слышали десятки раз:
— “Но у нас же бэкапы есть?”
— “Есть…”
— “Тогда почему не восстановили?”
И вот тут возникает главный парадокс. Бэкапы действительно “есть”. Отчёты зелёные. Джобы успешные. Ротация настроена.
А восстановление — внезапно “почему-то” не работает. Или работает, но не так, не то, не туда, не теми доступами, не в те сроки.
И в этот момент крайним становится не бэкап-программа или подрядчики, которые сделали, «что-то не то», а ИТ-отдел.
О ЧЁМ НА САМОМ ДЕЛЕ ФРАЗА "ПРОВЕРИМ ПОТОМ". Фраза “потом проверим восстановление” звучит как безобидный техдолг. На практике это означает другое:
“Мы узнаем, работает ли наш бэкап, в день аварии.”Проблема не в том, что кто-то ленивый или глупый.
Проблема в механике:
- восстановление требует окна, подготовленного сценария и времени;
- окна “вечно нет”;
- поэтому тест постоянно отодвигается;
- и постепенно “резервное копирование” превращается в ритуал: что-то куда-то складывается, всем спокойнее, пока не случилось “срочно верните 1С в работу”.
ПОЧЕМУ ЭТО БЬЕТ ИМЕННО ПО ИТ-ОТДЕЛУ?
Потому что бизнес слышит простую связь:
“Бэкапы есть, значит восстановить можно.”
А в аварии бизнесу уже неинтересны детали “почему именно не получилось”. Интересен результат: вернуть работу и как можно быстрее.
И если заранее не было доказательства “мы реально поднимали”, то в кризисе любой разговор звучит как оправдание.
БЭКАП ≠ ВОССТАНОВЛЕНИЕ: ГДЕ ПОЯЛВЯЕТСЯ “МУСОР”.
Назовём вещи честно:
Резервная копия, из которой ни разу не поднимали ключевую систему, — это гипотеза.
Она может оказаться страховкой. А может оказаться “файлом на несколько терабайт”, который невозможно превратить в рабочую систему.
Почему так происходит? Потому что восстановление — это не “кнопка”. Это цепочка отлаженных действий.
ЦЕПОЧКА ВОССТАНОВЛЕНИЯ (ПРОСТЫМИ СЛОВАМИ).Чтобы “вернуть в работу”, должно сойтись сразу несколько вещей:
- Данные действительно корректно сняты (а не “как-то записались”).
- Доступы/ключи/учётки для восстановления доступны в аварии (не в голове одного человека).
- Есть понятный порядок: что поднимать первым, что вторым, какие зависимости.
- Есть время и площадка (хотя бы минимальная), чтобы не “восстанавливать на живом проде”.
- Есть проверка результата: мы подняли не “сервер”, а рабочую 1С/сервисы, которые реально открываются и дают корректные данные.
Если в цепочке где-то “пусто”, то бэкап превращается в мусор не потому, что он плохой, а потому что
он не доведён до результата.
МИНИ-ТАБЛИЦА: "КАК ЕСТЬ vs КАК ДОЛЖНО БЫТЬ".
Как должно быть, чтобы не стать крайним
“Бэкапы есть, всё зелёное”
“Что-то куда-то записалось”
Есть протокол теста восстановления с датой/временем/результатом.
“Мы делаем snapshot’ы/копии каждый день”
“Сняли состояние, но не проверили возврат”
Есть сценарий поднятия ключевой системы (например, 1С).
“Никто не знает, сколько и как”
Есть время восстановления (факт, а не обещание) и порядок.
“Это всё у админа в голове”
Доступы/шаги/ответственные закреплены и доступны команде.
7 РЭД-ФЛАГОВ, ЧТО ВЫ УЖЕ ЖИВЕТЕ В "ПРОВЕРИМ ПОТОМ".- “Тест восстановления делали давно / когда-то / не помню.”
- Нет короткого ответа на вопрос: “что поднимаем первым, чтобы бизнес хоть как-то заработал?”
- Восстановление держится на одном человеке. Если он недоступен — начинается хаос.
- Есть отчёты бэкап-софта, но нет протоколов тестов (когда, что поднимали, чем закончилось, сколько заняло).
- Никто не может быстро показать, где лежит “страховая копия”, которая переживёт инцидент (а не “в той же зоне”).
- Нет заранее подготовленных доступов/ключей на аварийный случай. В момент Ч всё упирается в “а кто знает пароль?”.
- Окна на проверки “вечно нет” — уже месяцами/кварталами.
Если у вас совпало 2–3 пункта из списка — это не “плохие люди” и не “плохой софт”. Это почти всегда означает одно:
в компании нет зафиксированного порядка возврата в работу.Пока этого порядка нет, бэкапы остаются тем, чем они и являются по факту:
набором файлов, которые возможно помогут, но не гарантируют, что вы вернёте в работу 1С и ключевые сервисы в разумное время.
Парадокс в том, что
“план восстановления (Disaster Recovery / DR)” здесь — это не бумага ради бумаги. Это ответ на три простых вопроса, без которых восстановление превращается в импровизацию:
- Что поднимаем первым, чтобы бизнес снова начал жить?
- Кто что делает в первые часы (и где лежат доступы/ключи)?
- Почему авария/атака не убьёт сами бэкапы — и откуда мы реально будем поднимать?