Главная
/
Статьи
/
Аудит и отказоустойчивость ИТ инфраструктуры бизнеса

Аудит и отказоустойчивость ИТ инфраструктуры бизнеса

ИТ‑инфраструктура сегодня — это касса, склад, CRM, производство и онлайн‑каналы разом. Любой сбой быстро превращается в простой, срыв обязательств и прямые потери.

Аудит инфраструктуры нужен не ради отчета. Это инструмент, который показывает, где компания рискует остановить продажи из‑за старых серверов, единственного канала связи или слабых бэкапов, и сколько это стоит в деньгах.

Руководителям и ИТ‑директорам аудит дает основу для решений: что резервировать, что модернизировать, а где, наоборот, можно безопасно сэкономить, не повышая риск простоев.

Статью проверил и отредактировал

Семенов Сергей Владимирович (Генеральный директор)

Получите
консультацию
эксперта MIDICT

Поможем подобрать ИТ-решение под ваш бизнес

Получить консультацию

9EcnLSbm8EQb_WEabWCzpSMj-lQZqgY6a3oXE6w6KrAyuEtRtucvyufCfpWpBhZ6kXxpnwPFsKsPGHl8nc0ekG5d.jpg

Зачем бизнесу управляемая ИТ-инфраструктура

Инфраструктура напрямую связана с выручкой: касса, CRM, склад, сайт продаж работают только пока живут серверы, сеть и базы. Каждый незапланированный простой превращается в остановку операций и потерю клиентов.

Критерий: если простой сервиса хотя бы на несколько часов дает прямые потери или компенсации клиентам, этот сервис критичен.

Ошибка — считать ИТ «расходами на компьютеры» и покупать оборудование по запросам, без общей картины. Симптом — хаотичный рост ИТ‑бюджета, при этом инцидентов и ночных работ становится больше, а не меньше.

Сделайте базовый шаг: выпишите ключевые бизнес‑процессы (продажи, склад, производство, сервис) и напротив каждого укажите ИТ‑сервисы, без которых он встанет. Это основа для приоритизации аудита и резервирования.

Как простои превращаются в потери

Сбой CRM в рабочий день — менеджеры не видят историю сделок и контакты. Потери идут через сорванные звонки, задержки с выставлением счетов, ошибки в условиях договоров.

Остановка складской системы блокирует приемку и отгрузку. Машины ждут у рампы, клиенты не получают товар, растут расходы на простой персонала и логистики.

Падение сайта продаж или интернет‑витрины мгновенно режет онлайн‑выручку и портит репутацию: пользователи уходят к конкурентам, заявки не фиксируются, маркетинговый бюджет сгорает.

Критерий: если простой сервиса дольше заданного количества минут приводит к компенсациям клиентам или срыву SLA, для него нужен отдельный план восстановления. Мини‑чек‑лист: оцените для каждого сервиса, что теряется при часе простоя — деньги, клиенты, репутация, юридические обязательства.

Какие сервисы действительно критичны

Критичность определяется не «важностью» системы, а влиянием на процессы. Если без сервиса бизнес‑процесс останавливается или нарушаются обязательства перед клиентами, сервис критичен и должен иметь резерв и понятный план восстановления.

Ошибка — считать критичной только основную базу данных или учетную систему. Симптом — вроде бы база работает, но продажи стоят из‑за недоступной телефонии, почты или интеграционного шлюза.

Алгоритм выделения критичных сервисов:

возьмите список бизнес‑процессов и связанных с ними ИТ‑систем;
для каждой системы спросите: «что происходит, если она недоступна час, день?»;
отметьте как критичные те, при отказе которых процесс встает или нарушается SLA.

Составьте топ‑5 таких сервисов и для каждого честно оцените допустимый простой и наличие резерва. Это первый список для аудита и инвестиций.

Отказоустойчивость и карта ИТ‑инфраструктуры

Доступность сервиса — доля времени, когда им реально можно пользоваться. Отказоустойчивость — способность продолжать работу при сбоях отдельных компонентов за счет резервирования и правильной архитектуры.

Проценты доступности удобно переводить в простой. Например, несколько «девяток» в SLA — это уже часы или минуты недоступности в год, а не дни. Если простой ключевого сервиса на часы недопустим, целевой уровень доступности должен это отражать.

Рабочий алгоритм: задайте для ключевых сервисов допустимый простой и допустимую потерю данных, определите целевые показатели доступности и восстановления, затем найдите элементы, при отказе которых сервис падает.

Критерий: если отказ одного сервера, коммутатора, канала связи или площадки полностью останавливает сервис, это точка отказа и ее нужно резервировать или обходить архитектурно.

Доступность и допустимый простой

Для каждого сервиса задайте два параметра: максимальный простой (RTO) и максимальную потерю данных (RPO). Они должны опираться на деньги, штрафы и SLA, а не на пожелания админов.

Критерий: если бизнес не готов мириться с потерей часа данных по заказам, RPO для системы заказов должен быть меньше часа, а значит, бэкапы или репликация выполняются чаще.

Ошибка — задавать одинаковые жесткие требования для всех систем. Симптом — бюджет на инфраструктуру растет, но критичные сервисы все равно падают вместе с второстепенными.

Мини‑пример: для CRM допускается час простоя ночью и потеря 15 минут активности, а для системы биллинга — почти нулевой простой и минимальная потеря данных, поэтому их схемы резервирования и бэкапов различаются.

Точки отказа в типовой компании

Single point of failure — элемент, при отказе которого сервис полностью недоступен. Внутри компании это часто один сервер приложений, один файловый сервер, один контроллер домена.

Опасны и инфраструктурные точки отказа: один канал связи до офиса или ЦОД, один маршрутизатор на периметре, один коммутатор, через который проходят все критичные сегменты сети.

Организационные риски не менее важны: один администратор с уникальными доступами и знаниями, отсутствие документации, пароли только «в голове» у одного человека.

Сейчас полезно пройтись по топ‑5 сервисам и выписать, какие конкретные устройства, каналы и люди являются для них точками отказа.

Из чего состоит инфраструктура компании

Инфраструктуру удобно делить на уровни: серверы и системы хранения, виртуализация, сетевая инфраструктура, рабочие места и терминалы, прикладное ПО и базы данных, каналы связи, средства безопасности.

Каждый уровень влияет на бизнес‑процессы. Сбой СХД останавливает базы, отказ ядра сети рвет связи между системами, падение VPN лишает удаленные офисы доступа к учетным системам и CRM.

Ошибка — смотреть только на серверы и ЦОД, игнорируя сеть и рабочие места. Симптом — «все в ЦОДе зеленое», но пользователи не могут работать из‑за перегруженного Wi‑Fi, старых ПК или узкого канала связи.

YdsGJ-xtcZBn0TR6k8n4lXphJdsPTvHyDYiXxJmyj27Seg2GsBZuzVu_bhKfh_zBbxoNcaupC3-LK_rb1A_GHBJe.jpg

Когда и зачем проводить аудит ИТ‑инфраструктуры

Аудит нужен, когда растет число инцидентов, пользователи жалуются на тормоза, а ИТ‑бюджет увеличивается без понятного эффекта. Если вы не можете назвать узкие места инфраструктуры и стоимость часа простоя ключевых сервисов, аудит нужен сейчас.

К типичным триггерам относятся: реорганизация бизнеса, открытие филиалов, запуск критичного продукта, переезд в ЦОД или переход в облако. В этих точках любая скрытая проблема превращается в срыв сроков, штрафы и внеплановые закупки.

Ошибка — заказывать аудит «для галочки», без связи с рисками и деньгами. Симптом — толстый отчет без приоритетов, в котором непонятно, что делать первым делом и какие простои он помогает предотвратить.

Соберите за последние три месяца статистику инцидентов и жалоб, зафиксируйте для каждого простой, затронутые сервисы и примерные потери. Этот список станет отправной точкой для постановки задач аудиторам.

Симптомы скрытых проблем

Скрытые сбои выдают себя косвенно: частые аварийные выезды админов, «магические» перезагрузки серверов, ночные работы без понятного плана. При этом официальные отчеты мониторинга показывают «зеленый» статус.

К тревожным признакам относятся:

регулярные жалобы пользователей на медленную работу ключевых систем;
ручные обходные операции вместо автоматизированных процессов;
рост времени реакции ИТ‑службы и увеличение числа однотипных инцидентов.

Если такие симптомы есть, но причины и стоимость простоев не зафиксированы, инфраструктура управляется без учета реальных рисков и аудит становится обязательным шагом.

Ситуации, когда аудит обязателен

Без аудита рискованно входить в крупные изменения архитектуры. Критические поводы:

слияние компаний или укрупнение холдинга;
переезд в новый ЦОД или смена площадки;
переход в облако или гибридную схему;
внедрение ERP, биллинга, отраслевой платформы;
смена ИТ‑директора или ключевой команды.

Когда меняется масштаб бизнеса или инфраструктуры, без аудита высок риск неучтенных ограничений. Типовой кейс: запуск новой системы срывается, потому что не учли слабый канал связи и старые сервера, в итоге сроки сдвигаются, а бюджет растет из‑за срочных доработок и закупок.

Объекты и глубина аудита ИТ‑инфраструктуры

Аудит должен охватывать все, что влияет на доступность сервисов и целостность данных. Если объект при отказе останавливает процесс или грозит потерей информации, он обязан попасть в перечень проверки.

Базовые группы объектов: оборудование (серверы, СХД, сетевое железо, рабочие станции, периферия), виртуализация, сеть и каналы связи, безопасность, резервное копирование, лицензии, документация и операционные процессы.

Ошибка — выкинуть из аудита рабочие места и принтеры. Симптом — внедрение новой системы срывается, потому что «не тянут» клиентские ПК или не хватает периферии, и приходится срочно докупать железо.

Составьте таблицу по этим группам и впишите, какие конкретные объекты есть в компании и кто за них отвечает. Это станет каркасом технического задания на аудит.

Оборудование и виртуальная среда

Для серверов, СХД и сетевого оборудования фиксируйте модель, возраст, место установки, критичность, текущую нагрузку, наличие резерва по питанию, дискам и узлам. То же требуется для рабочих станций и ключевой периферии.

По гипервизорам и виртуальным машинам собирайте: хост, назначение ВМ, объем ресурсов, привязку к бизнес‑сервисам, сценарии отказа хоста и порядок переноса нагрузок.

Если нет актуальной инвентаризации, аудит начинайте с нее. Сейчас достаточно выгрузить из существующих систем список серверов и ВМ, добавить столбцы «критичность» и «есть ли резерв» и заполнить хотя бы для топ‑сервисов.

Безопасность, бэкапы и процессы

По безопасности проверьте учетные записи администраторов, права доступа к критичным системам, базовые средства защиты периметра и рабочих мест, а также наличие журналов событий и их хранение.

Для резервного копирования зафиксируйте, какие системы копируются, куда, как часто, сколько хранятся копии и когда в последний раз проводилось тестовое восстановление. Если бэкапы не тестируются и лежат в одной локации, схема ненадежна.

Репликация не заменяет резервное копирование: при логической ошибке или шифровальщике повреждение мгновенно уходит на реплику. Найдите и обновите инструкции по восстановлению ключевых систем, проверьте, что по ним реально можно поднять сервис.

184gMYqK9C6nUzBBBFtWYZaZtfP8esy2cUinHaHI0bGVrZlPUlRlHlOIyjg_lrD_SHRnfqPj2vIZuAUyZvPTuh51.jpg

Пошаговый алгоритм аудита ИТ‑инфраструктуры

Аудит удобно планировать как проект на 4–6 недель с понятными этапами и артефактами. Если цели аудита не сформулированы в деньгах и рисках (простои, потери данных, штрафы), результаты будут размыты и невостребованы.

Подготовка. Артефакт: список целей аудита, перечень критичных сервисов, согласованный план работ и доступов.
Инвентаризация и картирование. Артефакт: реестр оборудования, систем и связей «бизнес‑процесс → ИТ‑сервис → компоненты».
Анализ рисков. Артефакт: список точек отказа, перегруженных узлов, устаревшего оборудования, проблем с бэкапами и безопасностью.
Оценка резервирования и бэкапов. Артефакт: таблица по каждому критичному сервису с текущими RPO/RTO, наличием резерва и сценариями восстановления.
Отчет и план улучшений. Артефакт: документ с приоритизированным планом работ, оценкой влияния на простои и бюджет.

Ошибка — «изучить все» без фиксации выводов и приоритетов. Сейчас важно зафиксировать цели аудита в терминах денег и рисков и согласовать их с руководством.

Подготовка и инвентаризация

На старте определите цели аудита: снижение простоев, подготовка к модернизации, контроль затрат. Составьте список бизнес‑сервисов, которые проверяются в первую очередь, и согласуйте с владельцами процессов.

Далее нужен перечень систем и доступов: учетные записи, окна для обследования, контактные лица. Назначьте ответственных за предоставление данных по каждому участку инфраструктуры.

Инвентаризация должна связывать железо и ПО с бизнесом: для каждого сервера, ВМ и ключевого приложения укажите, какие процессы они поддерживают и насколько критичны.

Выпишите три главных вопроса к аудиту от бизнеса (про простои, риски, бюджет) и назначьте ответственного за инвентаризацию с конкретным сроком.

Анализ рисков и отчет

После инвентаризации найдите узлы, где сходятся критичные сервисы: перегруженные серверы, одиночные СХД, один канал связи, старые коммутаторы. Если отказ узла дает простой критичного сервиса, узел попадает в топ рисков.

Отдельно проверьте схему резервного копирования и восстановления: какие системы не покрыты, где нет тестов восстановления, где бэкапы лежат в одной локации или на том же оборудовании.

Структура отчета должна включать карту инфраструктуры, список рисков с оценкой влияния на бизнес, приоритизированный план улучшений с ориентировочными сроками и трудозатратами.

Ошибка — отчет без приоритетов и сроков: он не используется в планировании. По текущим данным можно составить черновой список из 10 крупнейших рисков с указанием затронутых сервисов и возможного времени простоя.

Старые серверы, отказоустойчивость и резервное копирование

Устаревшие серверы и сетевое оборудование напрямую бьют по доступности. Если железо не тянет актуальные версии ОС и ПО или регулярно «сыпется», оно устарело и повышает риск простоя критичных сервисов.

Такая техника часто не поддерживает современные средства резервирования и шифрования, не совместима с новыми системами бэкапов, требует ручных костылей. Каждый такой костыль — дополнительная точка отказа и источник человеческих ошибок.

Ошибка — «дожимать» старые сервера без резерва, пока не сгорят окончательно. Симптом — аварийные выезды ночью, поиск запчастей «с разбора», перенос релизов из‑за непредсказуемых сбоев.

В инвентаризации пометьте все системы старше заданного для компании возраста и без резерва (кластеров, запасных узлов, актуальных бэкапов). Эти позиции должны попасть в верхнюю часть плана модернизации.

Проблемы устаревшего парка

Старые серверы дают типичные сбои: внезапные перезагрузки, падение дисков, перегрев, отвал сетевых интерфейсов. Для бизнеса это выражается в тормозах CRM, зависаниях складских систем, обрывах VPN и потере несохраненных данных.

Если частота инцидентов и суммарное время простоя растут из квартала в квартал, оборудование — кандидат на замену или миграцию в более устойчивую среду.

Нет поддержки актуальных ОС и обновлений безопасности.
Нехватка ресурсов при типовой нагрузке, постоянные «подвисания».
Поиск запчастей превращается в квест, поставщики снимают модели с поддержки.

Базовое резервирование и бэкапы

Минимальный уровень защиты старого железа — резервирование и рабочие бэкапы. Используйте RAID для дисков, резервные блоки питания, дублирующие сетевые интерфейсы, по возможности кластеры высокой доступности.

RAID и кластеры не заменяют резервное копирование: логическая ошибка или шифровальщик разом повредят все копии в кластере. Если вы ни разу не пробовали восстановиться, считайте, что бэкапов нет.

Проверьте, входят ли критичные базы данных и конфигурации в регулярные бэкапы, есть ли хотя бы одно успешное тестовое восстановление за последний год и хранятся ли копии вне основной площадки.

ht5ZYh_-3pa9sZGWQ2nNmIKSPSwOu1vXOqEFfEEd9mY35qo6WP0qjY7obredQ-kyqDXJZV4fybKSeR1ubKqMCwpe.jpg

Оптимизация и модернизация ИТ‑инфраструктуры

Результаты аудита нужно перевести в деньги и очередность изменений. Если ресурсы простаивают или ПО не используется, это кандидаты на оптимизацию, а не на расширение мощностей и новых лицензий.

Опасный путь экономии — отключать резервирование и урезать бэкапы. Симптом такой «оптимизации» — снижение отказоустойчивости, рост простоев и аварийные работы вместо плановых окон.

Используйте карту рисков из аудита: сверху — системы с высоким влиянием на выручку и репутацию, ниже — вспомогательные сервисы. Модернизацию стройте по этому списку, совмещая замену старого железа и отказ от лишних систем.

Сейчас достаточно выделить пять систем с наибольшими рисками и набросать для каждой черновой план модернизации с целевым сроком, бюджетом и допустимым простоем.

Поиск избыточных затрат и простоев

По данным аудита ищите узлы, где мощности стабильно недогружены, а также дублирующее или неиспользуемое ПО. Если отключение ресурса не влияет на критичные процессы, его можно консолидировать, уменьшить или вывести из эксплуатации.

Сервера и ВМ с минимальной загрузкой при отсутствии планов роста.
Сервисы, которыми почти не пользуются, но за которые платятся лицензии и поддержка.
Дублирующие системы, выполняющие одну и ту же функцию без явной причины.

Оптимизация не должна снижать отказоустойчивость. Убирайте только то, что не участвует в резервировании критичных сервисов и не входит в их цепочку восстановления.

Поэтапное обновление без остановки бизнеса

Модернизацию стройте по принципу: приоритизация по рискам, пилот, поэтапная миграция. Если система критична и работает на старом железе без резерва, она в верхней части списка на обновление.

Запускайте пилот на некритичных системах, чтобы обкатать новые версии и архитектуру.
Планируйте миграцию по сервисам и окнам, с возможностью отката.
Фиксируйте метрики до и после: время отклика, число инцидентов, длительность простоев.

Ошибка — устраивать «большой взрыв», меняя все сразу. Симптом — массовые сбои, откаты ночами и потеря доверия к ИТ после обновления.

Быстрые шаги на ближайший месяц

Если за месяц ничего не сделать, риски и хаос в инфраструктуре будут расти, даже без новых проектов. Нужен короткий план на 30 дней без капитальных вложений, который снизит вероятность простоев и потерь данных.

Сфокусируйтесь на четырех задачах: инвентаризация, проверка резервного копирования, базовый мониторинг и фиксация инцидентов. Эти шаги дают картину текущего состояния и позволяют поймать критичные проблемы до аварии.

Критерий: если сейчас невозможно быстро ответить, какие сервера критичны, где хранятся бэкапы и кто реагирует на инциденты, план на месяц обязателен. Ошибка — откладывать «до большого проекта», симптом — повторяющиеся сбои без анализа причин.

Назначьте ответственного за 30‑дневный план, утвердите сроки и ожидаемые артефакты.

Чек‑лист действий на 30 дней

Неделя 1: собрать список серверов, ВМ, ключевых сервисов и каналов связи; найти и актуализировать схемы и инструкции, хотя бы в черновом виде.
Неделя 2: проверить, какие системы попадают в бэкапы, где лежат копии, когда последний раз пробовали восстановление; настроить минимальное резервирование для самых критичных сервисов.
Неделя 3: включить базовый мониторинг нагрузки, места, сети и доступности ключевых сервисов; завести журнал инцидентов с временем, причиной и последствиями.
Неделя 4: на основе собранных данных составить первичный список рисков и черновой план следующих шагов по модернизации и усилению отказоустойчивости.

Дальше важно назначить ответственного за выполнение чек‑листа и согласовать его с руководством, чтобы не упереться в отсутствие времени и приоритетов.

Выводы и обоснование для руководства

Аудит, отказоустойчивость и модернизация — это управление деньгами, а не «игра в железо». Каждый незапланированный простой превращается в прямые потери, штрафы и репутационные риски, которые часто дороже стоимости обновления инфраструктуры.

Старые серверы и устаревшее оборудование увеличивают вероятность аварий и удлиняют восстановление. Если критичный сервис работает на таком парке без резерва и проверенных бэкапов, риск сорванных контрактов и компенсаций клиентам растет с каждым месяцем.

План аудита и быстрые шаги дают основу для разговора с руководством о приоритетах и бюджете, не перегружая деталями.

Критерий: если можно показать руководству список рисков с оценкой простоев и вероятных потерь, решение об инвестициях принимается быстрее. По итогам первичного аудита достаточно собрать один слайд или страницу с тремя пунктами — топ‑5 рисков, ожидаемые потери при их реализации и ориентировочные затраты на снижение каждого риска.

Получите
консультацию
эксперта MIDICT

Поможем подобрать ИТ-решение под ваш бизнес

Получить консультацию

Другие статьи

27.03.2024

Какие угрозы несет неправильное использование сетевой инфраструктуры и как их избежать?

Базылев Андрей Витальевич

697

03.05.2024

Как снизить затраты на IT-решения при помощи облачной инфраструктуры?

Галиуллина Галина Ураловна

712

16.04.2024

Практические советы по улучшению производительности серверов и систем хранения данных

Базылев Андрей Витальевич

672

09.04.2024

Советы для развивающегося бизнеса: как правильно выбрать сервера и системы хранения данных

Семенов Сергей Владимирович

490

Возьмём на себя поддержку и обслуживание вашей ИТ-инфраструктуры

Сосредоточьтесь на бизнесе — мы обеспечим стабильность, безопасность и контроль систем.

Получить консультацию

Консультация эксперта

Подобрать оборудование

Сайт MIDICT использует "cookies" для обеспечения работоспособности и наилучшей функциональности. Находясь на этом сайте, Вы выражаете свое согласие с Политикой Конфиденциальности и Политикой Cookies.

Да