Для CTO продуктовых команд 10–100 человек

Аудит инфраструктуры, стабилизация эксплуатации и DevOps/SRE

Q: Какой минимальный срок?

Аудит — от 7 дней, стабилизация — от 4 недель, фракционная роль — от 1 месяца с пересмотром после 4–6 недель.

Q: Что нужно от команды для старта?

Минимум: контактные лица по сервисам, доступ только на чтение к мониторингу/логам/CI, описание критических потоков и текущие боли.

Навожу порядок там, где продакшен уже стал критичным. Внешний инженерный руководитель: инфраструктура, релизы, инциденты, наблюдаемость, ручные операции. От двухнедельного аудита до фракционного Head of Infrastructure с частичной или проектной занятостью.

Обсудить задачу → Форматы работы →

Когда меня зовут

Три ситуации, в которых внешний инженерный руководитель окупается

01

Эксплуатация обогнала команду

Инцидентов больше, релизы дороже, ownership размыт. Ответственные тонут в операционке и тушат пожары вместо развития.

02

Штатного Head of Infra ещё нет

Брать человека в штат рано или дорого, а зона уже требует управленческой руки: приоритеты, стандарты, отчётность бизнесу.

03

Нужен трезвый внешний взгляд

CTO нужно понять, где реальные риски, что чинить первым и во сколько это обойдётся — без внутренней политики и слепых зон.

Симптомы

Сигналы, что пора звать

О проблемах узнаём от пользователей

Мониторинг либо спамит, либо молчит ровно тогда, когда падает прод.

Релизы держатся на двух людях

Rollback неочевиден, критичные действия живут в чьей-то голове.

Много ручного, мало автоматизации

Поддержка тонет в повторяющихся операциях — ошибки и зависимость от людей.

Инфра растёт, прозрачности нет

Сервисов больше, документации меньше. Никто не держит картину целиком.

Риски не на языке бизнеса

Инженеры знают, что «плохо лежит», но нет понятной приоритизации и оценки.

Растут счета за инфру и софт

Cloud-биллы и лицензии увеличиваются без модели стоимости владения.

Опубликованные результаты

17×снижение числа инцидентов на продакшене

−25%расходов на инфраструктуру и софт

93%SLA техподдержки после реорганизации операционки

Форматы работы

Три способа со мной работать

Точная вилка по объёму и стоимости — после вводного созвона: нужно понять контекст, доступы и владельцев систем.

Разовый проект · 7–14 дней

Аудит эксплуатации

Внешний взгляд на инфру, релизы, инциденты и observability. На выходе — карта рисков, quick wins и план на 30–60 дней.

интервью с командой и сбор данных
карта состояния и риск-регистр
1–2 быстрых улучшения прямо в ходе аудита
план стабилизации

Обсудить аудит →

Самый частый Проект · 4–12 недель

Стабилизация и внедрения

Берём приоритеты из аудита и доводим до результата: мониторинг, релизы, автоматизация рутин, runbook’и.

критичность, дедуп и маршруты оповещений
управляемые релизы и откат
автоматизация 2–4 рутин эксплуатации
передача инструментов команде

Обсудить проект →

Регулярная роль · частичная занятость

Fractional Head of Infrastructure

Беру часть нагрузки инженерного руководителя: приоритеты, стандарты, найм, отчётность бизнесу — до появления штатного Head of Infra.

еженедельный рабочий ритм
построение DevOps/SRE-команды
tech & ops отчётность для бизнеса
incident review и постмортемы

Обсудить роль →

Процесс

Как мы начинаем — без сюрпризов

00

Вводный созвон · 30–45 мин

Контекст, боли, ограничения, ожидания. Если задача не моя — говорю сразу и предлагаю альтернативы.

01

Предложение и формат

Короткое письмо: что делаем, в какие сроки, какие артефакты, что нужно от команды, сколько стоит.

02

Старт работ

Минимальные доступы (часто хватает read-only), знакомство с владельцами сервисов, фиксируем коммуникацию.

03

Регулярная синхронизация

Раз в неделю короткий статус: что сделано, что в работе, где блокеры, что меняется в приоритетах.

04

Передача результата

Артефакты, runbook’и, ownership, открытые вопросы и рекомендации по следующим шагам.

Что остаётся у команды

Артефакты, которые не уходят вместе с человеком

Карта текущего состояния

Сервисы, инструменты, источники сигналов, каналы реакции и владельцы. Где пробелы и риски.

Риск-регистр

Риски и деградации с вероятностью, влиянием и детектируемостью. Приоритеты и предложенные меры.

План на 30–60 дней

Приоритизированный план: быстрые улучшения / средние / крупные задачи, зависимости и зоны ответственности.

Runbook и документация

Что делать при основных алертах: что проверить, какие команды и ссылки, где границы ответственности.

Безопасность

Инфобез — не отдельная галочка, а часть инженерной практики

Информационной безопасностью занимаюсь с 16 лет — с этого начался мой путь в ИТ. Поэтому надёжность и защищённость я закладываю в инфраструктуру и эксплуатацию с самого начала, а не прикручиваю в конце.

Пентест и анализ защищённости

Поиск уязвимостей в инфраструктуре и сервисах, разбор векторов атаки, приоритизация рисков и понятные шаги по устранению.

Защита от DDoS и устойчивость

Фильтрация трафика, оборона периметра и устойчивость сервисов под нагрузкой — чтобы инциденты безопасности не превращались в простой.

Обо мне

Александр Гоманов

Руководитель инфраструктурного, DevOps/SRE и platform-направления. Работаю в инженерной логике: измеримые метрики, прозрачные артефакты, понятный процесс. Управлял managed services-направлением и командами DBA / Windows / Linux / DevOps, отвечал за среды продакшена.

Фокус — на стыке инфраструктуры, эксплуатации, поддержки и управленческой отчётности. Помогаю переводить технический долг и инфраструктурные риски на язык метрик, приоритетов и решений.

Подробное резюме → Связаться →

FAQ

Частые вопросы

Можно работать частично, параллельно со штатной командой?+

Да, это основной формат «Fractional Head of Infrastructure». Обсуждаем operating rhythm: фиксированные дни в неделе, escalation policy, как делятся обязанности с действующими лидами.

Какой минимальный срок?+

Аудит — от 7 дней, стабилизация — от 4 недель, fractional-роль — от 1 месяца с пересмотром после 4–6 недель. Короче часто не имеет смысла: уходит время на погружение.

С какими инструментами вы работаете?+

Привязываюсь к вашему стеку: Prometheus/Grafana, Alertmanager, Loki, ELK, Zabbix, GitLab/Jenkins, Kubernetes, Ansible, Terraform, cloud/on-prem/hybrid. Важнее не «какой тул», а модель сигналов, ownership и правила реакции.

Как измеряем эффект?+

Чаще всего — MTTD/MTTR, частота инцидентов, доля «узнали от пользователя», шум алертов, скорость релизов, доля ручных операций и стабильность delivery-метрик.

Что нужно от команды для старта?+

Минимум: контактные лица по сервисам, read-only доступ к мониторингу/логам/CI, описание критических потоков и текущие боли. На вводном созвоне быстро становится понятно, чего не хватает.

Работаете в штате или как ИП/самозанятый?+

Основной формат — B2B как самозанятый/ИП. Частичную или проектную занятость в штате рассматриваю, если задача интересная и удобная по операционке.

Связаться

Расскажите про задачу

Быстрее всего — Telegram. Через форму отвечу в течение рабочего дня и предложу время вводного созвона.

Прямые контакты

Telegram@Gomanov_A
Emailgomanov.alexander@gmail.com
Форматсамозанятый / ИП · частичная / проектная
ЛокацияСПб · remote · hybrid

Написать в Telegram

Оставить заявку

Имя *

Контакт *

Компания / проект

Интересующий формат

Что хотите разобрать *

Согласен на обработку персональных данных для ответа на заявку

Заявка уходит в Telegram-бот — я получаю уведомление сразу. Или напишите в Telegram напрямую.

cv.gomandev.ru

Ищете руководителя в штат?

Полное резюме →