Руководитель группы
Платежи по СНГ + Европа.
Обязанности:
Набрал и вывел на рабочий режим команду из 6 человек; on-call rotation 24/7, онбординг-программа, one-on-one, разборы инцидентов.
Обеспечение доступности платёжного контура 7+ GEO при 2–3 P0-инцидентах в неделю: triage, эскалация, war room до 6 команд.
Change Management: согласование релизов, оценка рисков, откат при деградации.
Еженедельная аналитика для CPO: root cause, MTTR/MTTD, влияние на выручку. Stakeholder management.
Problem Management backlog: системные причины сбоев, доработка fallback-маршрутизации, улучшение алёртов.
Достижения:
Внедрил SLO-борд и error budget: ложные срабатывания снижены на 30%; построил 10+ дашбордов Grafana/Power BI.
База знаний Confluence ускорила обработку типовых инцидентов на 25%.
Руководитель дежурной смены
32 млн DAU, топ-10 интернет-площадок РФ.
Обязанности:
Создал с нуля команду из 4 человек; выстроил on-call rotation, handover-процедуры, онбординг.
War room при P0: эскалация, координация восстановления, stakeholder communication.
Автоматизация observability: Grafana, Yandex Monitoring, Juggler, SQL — blameless post-mortem стал стандартом.
Консолидация отчётности: тренды отказов, влияние на бизнес-метрики, рекомендации для DevOps.
Достижения:
Внедрил формализованный triage P0–P3: MTTR сокращён на 35%.
Incident Manager
3 500+ микросервисов, 382K RPS, 6 900 заказов/сек.
Обязанности:
On-call: 15–20 инцидентов за смену. Triage P0–P3, war room — координация до 5 команд.
Blameless post-mortem, ведение библиотеки root cause и corrective actions.
Достижения:
MTTR ~25 мин при высокой нагрузке (382K RPS).
Создал 50+ статей в Confluence; оптимизировал post-mortem-процесс.
Выявлял пробелы в observability — инициировал расширение покрытия алёртами совместно с DevOps.
Предприниматель
Полный цикл запуска и операционного управления сервисным бизнесом.
Открыл автосервис с нуля: подбор помещения, закупка оборудования, найм и управление командой.
Выстроил процесс приёмки и приоритизации заказов (срочный ремонт, плановое ТО, диагностика).
Внедрил учёт заказов и контроль сроков: от приёмки до выдачи с прозрачными статусами для клиентов.
Управление P&L, работа с поставщиками запчастей, контроль качества. Вышел из проекта с положительным результатом.
Старший ИТ-инженер
Проектная занятость в рамках реорганизации подразделения.
On-call мониторинг production-систем 24/7: обработка алёртов, первичная диагностика через Grafana и Zabbix, эскалация, handover.
Диагностика Linux-сервисов: анализ логов, статуса процессов; ведение тикетов в Jira.