консультацию
эксперта MIDICT
ИТ‑инфраструктура сегодня — это касса, склад, CRM, производство и онлайн‑каналы разом. Любой сбой быстро превращается в простой, срыв обязательств и прямые потери.
Аудит инфраструктуры нужен не ради отчета. Это инструмент, который показывает, где компания рискует остановить продажи из‑за старых серверов, единственного канала связи или слабых бэкапов, и сколько это стоит в деньгах.
Руководителям и ИТ‑директорам аудит дает основу для решений: что резервировать, что модернизировать, а где, наоборот, можно безопасно сэкономить, не повышая риск простоев.

Зачем бизнесу управляемая ИТ-инфраструктура
Инфраструктура напрямую связана с выручкой: касса, CRM, склад, сайт продаж работают только пока живут серверы, сеть и базы. Каждый незапланированный простой превращается в остановку операций и потерю клиентов.
Критерий: если простой сервиса хотя бы на несколько часов дает прямые потери или компенсации клиентам, этот сервис критичен.
Ошибка — считать ИТ «расходами на компьютеры» и покупать оборудование по запросам, без общей картины. Симптом — хаотичный рост ИТ‑бюджета, при этом инцидентов и ночных работ становится больше, а не меньше.
Сделайте базовый шаг: выпишите ключевые бизнес‑процессы (продажи, склад, производство, сервис) и напротив каждого укажите ИТ‑сервисы, без которых он встанет. Это основа для приоритизации аудита и резервирования.
Как простои превращаются в потери
Сбой CRM в рабочий день — менеджеры не видят историю сделок и контакты. Потери идут через сорванные звонки, задержки с выставлением счетов, ошибки в условиях договоров.
Остановка складской системы блокирует приемку и отгрузку. Машины ждут у рампы, клиенты не получают товар, растут расходы на простой персонала и логистики.
Падение сайта продаж или интернет‑витрины мгновенно режет онлайн‑выручку и портит репутацию: пользователи уходят к конкурентам, заявки не фиксируются, маркетинговый бюджет сгорает.
Критерий: если простой сервиса дольше заданного количества минут приводит к компенсациям клиентам или срыву SLA, для него нужен отдельный план восстановления. Мини‑чек‑лист: оцените для каждого сервиса, что теряется при часе простоя — деньги, клиенты, репутация, юридические обязательства.
Какие сервисы действительно критичны
Критичность определяется не «важностью» системы, а влиянием на процессы. Если без сервиса бизнес‑процесс останавливается или нарушаются обязательства перед клиентами, сервис критичен и должен иметь резерв и понятный план восстановления.
Ошибка — считать критичной только основную базу данных или учетную систему. Симптом — вроде бы база работает, но продажи стоят из‑за недоступной телефонии, почты или интеграционного шлюза.
Алгоритм выделения критичных сервисов:
- возьмите список бизнес‑процессов и связанных с ними ИТ‑систем;
- для каждой системы спросите: «что происходит, если она недоступна час, день?»;
- отметьте как критичные те, при отказе которых процесс встает или нарушается SLA.
Составьте топ‑5 таких сервисов и для каждого честно оцените допустимый простой и наличие резерва. Это первый список для аудита и инвестиций.
Отказоустойчивость и карта ИТ‑инфраструктуры
Доступность сервиса — доля времени, когда им реально можно пользоваться. Отказоустойчивость — способность продолжать работу при сбоях отдельных компонентов за счет резервирования и правильной архитектуры.
Проценты доступности удобно переводить в простой. Например, несколько «девяток» в SLA — это уже часы или минуты недоступности в год, а не дни. Если простой ключевого сервиса на часы недопустим, целевой уровень доступности должен это отражать.
Рабочий алгоритм: задайте для ключевых сервисов допустимый простой и допустимую потерю данных, определите целевые показатели доступности и восстановления, затем найдите элементы, при отказе которых сервис падает.
Критерий: если отказ одного сервера, коммутатора, канала связи или площадки полностью останавливает сервис, это точка отказа и ее нужно резервировать или обходить архитектурно.
Доступность и допустимый простой
Для каждого сервиса задайте два параметра: максимальный простой (RTO) и максимальную потерю данных (RPO). Они должны опираться на деньги, штрафы и SLA, а не на пожелания админов.
Критерий: если бизнес не готов мириться с потерей часа данных по заказам, RPO для системы заказов должен быть меньше часа, а значит, бэкапы или репликация выполняются чаще.
Ошибка — задавать одинаковые жесткие требования для всех систем. Симптом — бюджет на инфраструктуру растет, но критичные сервисы все равно падают вместе с второстепенными.
Мини‑пример: для CRM допускается час простоя ночью и потеря 15 минут активности, а для системы биллинга — почти нулевой простой и минимальная потеря данных, поэтому их схемы резервирования и бэкапов различаются.
Точки отказа в типовой компании
Single point of failure — элемент, при отказе которого сервис полностью недоступен. Внутри компании это часто один сервер приложений, один файловый сервер, один контроллер домена.
Опасны и инфраструктурные точки отказа: один канал связи до офиса или ЦОД, один маршрутизатор на периметре, один коммутатор, через который проходят все критичные сегменты сети.
Организационные риски не менее важны: один администратор с уникальными доступами и знаниями, отсутствие документации, пароли только «в голове» у одного человека.
Сейчас полезно пройтись по топ‑5 сервисам и выписать, какие конкретные устройства, каналы и люди являются для них точками отказа.
Из чего состоит инфраструктура компании
Инфраструктуру удобно делить на уровни: серверы и системы хранения, виртуализация, сетевая инфраструктура, рабочие места и терминалы, прикладное ПО и базы данных, каналы связи, средства безопасности.
Каждый уровень влияет на бизнес‑процессы. Сбой СХД останавливает базы, отказ ядра сети рвет связи между системами, падение VPN лишает удаленные офисы доступа к учетным системам и CRM.
Ошибка — смотреть только на серверы и ЦОД, игнорируя сеть и рабочие места. Симптом — «все в ЦОДе зеленое», но пользователи не могут работать из‑за перегруженного Wi‑Fi, старых ПК или узкого канала связи.

Когда и зачем проводить аудит ИТ‑инфраструктуры
Аудит нужен, когда растет число инцидентов, пользователи жалуются на тормоза, а ИТ‑бюджет увеличивается без понятного эффекта. Если вы не можете назвать узкие места инфраструктуры и стоимость часа простоя ключевых сервисов, аудит нужен сейчас.
К типичным триггерам относятся: реорганизация бизнеса, открытие филиалов, запуск критичного продукта, переезд в ЦОД или переход в облако. В этих точках любая скрытая проблема превращается в срыв сроков, штрафы и внеплановые закупки.
Ошибка — заказывать аудит «для галочки», без связи с рисками и деньгами. Симптом — толстый отчет без приоритетов, в котором непонятно, что делать первым делом и какие простои он помогает предотвратить.
Соберите за последние три месяца статистику инцидентов и жалоб, зафиксируйте для каждого простой, затронутые сервисы и примерные потери. Этот список станет отправной точкой для постановки задач аудиторам.
Симптомы скрытых проблем
Скрытые сбои выдают себя косвенно: частые аварийные выезды админов, «магические» перезагрузки серверов, ночные работы без понятного плана. При этом официальные отчеты мониторинга показывают «зеленый» статус.
К тревожным признакам относятся:
- регулярные жалобы пользователей на медленную работу ключевых систем;
- ручные обходные операции вместо автоматизированных процессов;
- рост времени реакции ИТ‑службы и увеличение числа однотипных инцидентов.
Если такие симптомы есть, но причины и стоимость простоев не зафиксированы, инфраструктура управляется без учета реальных рисков и аудит становится обязательным шагом.
Ситуации, когда аудит обязателен
Без аудита рискованно входить в крупные изменения архитектуры. Критические поводы:
- слияние компаний или укрупнение холдинга;
- переезд в новый ЦОД или смена площадки;
- переход в облако или гибридную схему;
- внедрение ERP, биллинга, отраслевой платформы;
- смена ИТ‑директора или ключевой команды.
Когда меняется масштаб бизнеса или инфраструктуры, без аудита высок риск неучтенных ограничений. Типовой кейс: запуск новой системы срывается, потому что не учли слабый канал связи и старые сервера, в итоге сроки сдвигаются, а бюджет растет из‑за срочных доработок и закупок.
Объекты и глубина аудита ИТ‑инфраструктуры
Аудит должен охватывать все, что влияет на доступность сервисов и целостность данных. Если объект при отказе останавливает процесс или грозит потерей информации, он обязан попасть в перечень проверки.
Базовые группы объектов: оборудование (серверы, СХД, сетевое железо, рабочие станции, периферия), виртуализация, сеть и каналы связи, безопасность, резервное копирование, лицензии, документация и операционные процессы.
Ошибка — выкинуть из аудита рабочие места и принтеры. Симптом — внедрение новой системы срывается, потому что «не тянут» клиентские ПК или не хватает периферии, и приходится срочно докупать железо.
Составьте таблицу по этим группам и впишите, какие конкретные объекты есть в компании и кто за них отвечает. Это станет каркасом технического задания на аудит.
Оборудование и виртуальная среда
Для серверов, СХД и сетевого оборудования фиксируйте модель, возраст, место установки, критичность, текущую нагрузку, наличие резерва по питанию, дискам и узлам. То же требуется для рабочих станций и ключевой периферии.
По гипервизорам и виртуальным машинам собирайте: хост, назначение ВМ, объем ресурсов, привязку к бизнес‑сервисам, сценарии отказа хоста и порядок переноса нагрузок.
Если нет актуальной инвентаризации, аудит начинайте с нее. Сейчас достаточно выгрузить из существующих систем список серверов и ВМ, добавить столбцы «критичность» и «есть ли резерв» и заполнить хотя бы для топ‑сервисов.
Безопасность, бэкапы и процессы
По безопасности проверьте учетные записи администраторов, права доступа к критичным системам, базовые средства защиты периметра и рабочих мест, а также наличие журналов событий и их хранение.
Для резервного копирования зафиксируйте, какие системы копируются, куда, как часто, сколько хранятся копии и когда в последний раз проводилось тестовое восстановление. Если бэкапы не тестируются и лежат в одной локации, схема ненадежна.
Репликация не заменяет резервное копирование: при логической ошибке или шифровальщике повреждение мгновенно уходит на реплику. Найдите и обновите инструкции по восстановлению ключевых систем, проверьте, что по ним реально можно поднять сервис.

Пошаговый алгоритм аудита ИТ‑инфраструктуры
Аудит удобно планировать как проект на 4–6 недель с понятными этапами и артефактами. Если цели аудита не сформулированы в деньгах и рисках (простои, потери данных, штрафы), результаты будут размыты и невостребованы.
- Подготовка. Артефакт: список целей аудита, перечень критичных сервисов, согласованный план работ и доступов.
- Инвентаризация и картирование. Артефакт: реестр оборудования, систем и связей «бизнес‑процесс → ИТ‑сервис → компоненты».
- Анализ рисков. Артефакт: список точек отказа, перегруженных узлов, устаревшего оборудования, проблем с бэкапами и безопасностью.
- Оценка резервирования и бэкапов. Артефакт: таблица по каждому критичному сервису с текущими RPO/RTO, наличием резерва и сценариями восстановления.
- Отчет и план улучшений. Артефакт: документ с приоритизированным планом работ, оценкой влияния на простои и бюджет.
Ошибка — «изучить все» без фиксации выводов и приоритетов. Сейчас важно зафиксировать цели аудита в терминах денег и рисков и согласовать их с руководством.
Подготовка и инвентаризация
На старте определите цели аудита: снижение простоев, подготовка к модернизации, контроль затрат. Составьте список бизнес‑сервисов, которые проверяются в первую очередь, и согласуйте с владельцами процессов.
Далее нужен перечень систем и доступов: учетные записи, окна для обследования, контактные лица. Назначьте ответственных за предоставление данных по каждому участку инфраструктуры.
Инвентаризация должна связывать железо и ПО с бизнесом: для каждого сервера, ВМ и ключевого приложения укажите, какие процессы они поддерживают и насколько критичны.
Выпишите три главных вопроса к аудиту от бизнеса (про простои, риски, бюджет) и назначьте ответственного за инвентаризацию с конкретным сроком.
Анализ рисков и отчет
После инвентаризации найдите узлы, где сходятся критичные сервисы: перегруженные серверы, одиночные СХД, один канал связи, старые коммутаторы. Если отказ узла дает простой критичного сервиса, узел попадает в топ рисков.
Отдельно проверьте схему резервного копирования и восстановления: какие системы не покрыты, где нет тестов восстановления, где бэкапы лежат в одной локации или на том же оборудовании.
Структура отчета должна включать карту инфраструктуры, список рисков с оценкой влияния на бизнес, приоритизированный план улучшений с ориентировочными сроками и трудозатратами.
Ошибка — отчет без приоритетов и сроков: он не используется в планировании. По текущим данным можно составить черновой список из 10 крупнейших рисков с указанием затронутых сервисов и возможного времени простоя.
Старые серверы, отказоустойчивость и резервное копирование
Устаревшие серверы и сетевое оборудование напрямую бьют по доступности. Если железо не тянет актуальные версии ОС и ПО или регулярно «сыпется», оно устарело и повышает риск простоя критичных сервисов.
Такая техника часто не поддерживает современные средства резервирования и шифрования, не совместима с новыми системами бэкапов, требует ручных костылей. Каждый такой костыль — дополнительная точка отказа и источник человеческих ошибок.
Ошибка — «дожимать» старые сервера без резерва, пока не сгорят окончательно. Симптом — аварийные выезды ночью, поиск запчастей «с разбора», перенос релизов из‑за непредсказуемых сбоев.
В инвентаризации пометьте все системы старше заданного для компании возраста и без резерва (кластеров, запасных узлов, актуальных бэкапов). Эти позиции должны попасть в верхнюю часть плана модернизации.
Проблемы устаревшего парка
Старые серверы дают типичные сбои: внезапные перезагрузки, падение дисков, перегрев, отвал сетевых интерфейсов. Для бизнеса это выражается в тормозах CRM, зависаниях складских систем, обрывах VPN и потере несохраненных данных.
Если частота инцидентов и суммарное время простоя растут из квартала в квартал, оборудование — кандидат на замену или миграцию в более устойчивую среду.
- Нет поддержки актуальных ОС и обновлений безопасности.
- Нехватка ресурсов при типовой нагрузке, постоянные «подвисания».
- Поиск запчастей превращается в квест, поставщики снимают модели с поддержки.
Базовое резервирование и бэкапы
Минимальный уровень защиты старого железа — резервирование и рабочие бэкапы. Используйте RAID для дисков, резервные блоки питания, дублирующие сетевые интерфейсы, по возможности кластеры высокой доступности.
RAID и кластеры не заменяют резервное копирование: логическая ошибка или шифровальщик разом повредят все копии в кластере. Если вы ни разу не пробовали восстановиться, считайте, что бэкапов нет.
Проверьте, входят ли критичные базы данных и конфигурации в регулярные бэкапы, есть ли хотя бы одно успешное тестовое восстановление за последний год и хранятся ли копии вне основной площадки.

Оптимизация и модернизация ИТ‑инфраструктуры
Результаты аудита нужно перевести в деньги и очередность изменений. Если ресурсы простаивают или ПО не используется, это кандидаты на оптимизацию, а не на расширение мощностей и новых лицензий.
Опасный путь экономии — отключать резервирование и урезать бэкапы. Симптом такой «оптимизации» — снижение отказоустойчивости, рост простоев и аварийные работы вместо плановых окон.
Используйте карту рисков из аудита: сверху — системы с высоким влиянием на выручку и репутацию, ниже — вспомогательные сервисы. Модернизацию стройте по этому списку, совмещая замену старого железа и отказ от лишних систем.
Сейчас достаточно выделить пять систем с наибольшими рисками и набросать для каждой черновой план модернизации с целевым сроком, бюджетом и допустимым простоем.
Поиск избыточных затрат и простоев
По данным аудита ищите узлы, где мощности стабильно недогружены, а также дублирующее или неиспользуемое ПО. Если отключение ресурса не влияет на критичные процессы, его можно консолидировать, уменьшить или вывести из эксплуатации.
- Сервера и ВМ с минимальной загрузкой при отсутствии планов роста.
- Сервисы, которыми почти не пользуются, но за которые платятся лицензии и поддержка.
- Дублирующие системы, выполняющие одну и ту же функцию без явной причины.
Оптимизация не должна снижать отказоустойчивость. Убирайте только то, что не участвует в резервировании критичных сервисов и не входит в их цепочку восстановления.
Поэтапное обновление без остановки бизнеса
Модернизацию стройте по принципу: приоритизация по рискам, пилот, поэтапная миграция. Если система критична и работает на старом железе без резерва, она в верхней части списка на обновление.
- Запускайте пилот на некритичных системах, чтобы обкатать новые версии и архитектуру.
- Планируйте миграцию по сервисам и окнам, с возможностью отката.
- Фиксируйте метрики до и после: время отклика, число инцидентов, длительность простоев.
Ошибка — устраивать «большой взрыв», меняя все сразу. Симптом — массовые сбои, откаты ночами и потеря доверия к ИТ после обновления.
Быстрые шаги на ближайший месяц
Если за месяц ничего не сделать, риски и хаос в инфраструктуре будут расти, даже без новых проектов. Нужен короткий план на 30 дней без капитальных вложений, который снизит вероятность простоев и потерь данных.
Сфокусируйтесь на четырех задачах: инвентаризация, проверка резервного копирования, базовый мониторинг и фиксация инцидентов. Эти шаги дают картину текущего состояния и позволяют поймать критичные проблемы до аварии.
Критерий: если сейчас невозможно быстро ответить, какие сервера критичны, где хранятся бэкапы и кто реагирует на инциденты, план на месяц обязателен. Ошибка — откладывать «до большого проекта», симптом — повторяющиеся сбои без анализа причин.
Назначьте ответственного за 30‑дневный план, утвердите сроки и ожидаемые артефакты.
Чек‑лист действий на 30 дней
- Неделя 1: собрать список серверов, ВМ, ключевых сервисов и каналов связи; найти и актуализировать схемы и инструкции, хотя бы в черновом виде.
- Неделя 2: проверить, какие системы попадают в бэкапы, где лежат копии, когда последний раз пробовали восстановление; настроить минимальное резервирование для самых критичных сервисов.
- Неделя 3: включить базовый мониторинг нагрузки, места, сети и доступности ключевых сервисов; завести журнал инцидентов с временем, причиной и последствиями.
- Неделя 4: на основе собранных данных составить первичный список рисков и черновой план следующих шагов по модернизации и усилению отказоустойчивости.
Дальше важно назначить ответственного за выполнение чек‑листа и согласовать его с руководством, чтобы не упереться в отсутствие времени и приоритетов.
Выводы и обоснование для руководства
Аудит, отказоустойчивость и модернизация — это управление деньгами, а не «игра в железо». Каждый незапланированный простой превращается в прямые потери, штрафы и репутационные риски, которые часто дороже стоимости обновления инфраструктуры.
Старые серверы и устаревшее оборудование увеличивают вероятность аварий и удлиняют восстановление. Если критичный сервис работает на таком парке без резерва и проверенных бэкапов, риск сорванных контрактов и компенсаций клиентам растет с каждым месяцем.
План аудита и быстрые шаги дают основу для разговора с руководством о приоритетах и бюджете, не перегружая деталями.
Критерий: если можно показать руководству список рисков с оценкой простоев и вероятных потерь, решение об инвестициях принимается быстрее. По итогам первичного аудита достаточно собрать один слайд или страницу с тремя пунктами — топ‑5 рисков, ожидаемые потери при их реализации и ориентировочные затраты на снижение каждого риска.