Задание 1
Что нужно сделать
- Разработайте свой шаблон для Postmortem. Сделайте минимум пять пунктов, чтобы использовать шаблон для ваших бизнес-кейсов/целей и заполнять его при инциденте.
- Укажите, почему включили в шаблон каждый пункт и как он поможет в расследовании и предотвращении инцидентов в будущем.
Postmortem template
Incident title
Incident Status:
Incident Duration:Summary
Detailed description
Action items
Root cause
Lessons learned
Элемент шаблона | Обоснование |
---|---|
Incident title (Название инцидента) | У любого документа должно быть название/заголовок — это упрощает идентификацию, поиск и т.п. |
Incident Status (Статус инцидента) | Чтобы управлять инцидентом, нужно знать его статус — текущий этап анализа, расследования. |
Incident Duration (Длительность инцидента) | Важный пункт, который поможет оценить масштаб инцидента и эффективность реакции на него. Указывается примерное время, если точное нет возможности установить. |
Summary (Краткое описание) | Краткий обзор нужен для (быстрого) понимания сути инцидента. Особенно полезен будет для специалистов без тех. знаний. |
Detailed description (Подробное описание) | Поможет полноценно восстановить цепочку событий, понять контекст. Глубокий анализ без этого пункта невозможен. |
Action items (Корректирующие действия, принятые меры) | Здесь должны фиксироваться меры, которые были и/или будут приняты в процессе разрешения инцидента. Это делает процесс устранения проблемы прозрачным и контролируемым. |
Root cause (Корневая причина) | Определение корневой причины (или причин) позволит устранить сам источник проблемы, а не симптомы. |
Lessons learned (Извлеченные уроки) | Самая важная, по моему мнению, часть постмортема, т.к. инцидент должен рассматриваться как возможность для роста и улучшения. А фиксация самих выводов повышает общую компетентность, систематизируя накопленный опыт. |
Sources
- Hosted Graphite template
- Atlassian template
- Amazon template
- Google Compute Engine Incident #17007
- Google | We are experiencing Networking issues
- crates.io Postmortem: Broken Crate Downloads | Root cause identification
- Google SRE book | Postmortem Culture: Learning from Failure
- Google SRE workbook | Postmortem Culture: Learning from Failure
Задание 2
Что нужно сделать
- Рассмотрите ситуацию, которая могла произойти в реальной жизни:
Вы опоздали на самолет. Факторы, которые железнобетонно должны проявляться в постмортеме:
- Плохая погода
- Такси
- Не собрали вещи
- Паспорт
- На этих фактах необходимо выстроить вашу User Story и отразить её в постмортеме. Естественно, используя ваш шаблон.
Постмортем
Опоздание на рейс из Москвы в Алтай
Статус инцидента: Закрыт
Длительность инцидента: Около 3 часов (от планируемого времени вылета (15:00) до момента, когда рейс ушел без меня)Краткое описание
Я опоздал на рейс из Москвы в Алтай из-за нескольких факторов: позднего обнаружения недостающего снаряжения для похода, отвлечения на бытовой ремонт, задержки такси из-за плохой погоды и забывчивости с документами. В итоге не успел на регистрацию и попасть на борт.
Подробное описание
У меня был запланирован рейс “Москва - Барнаул” (Алтай) в 15:00. Планировался поход в горы, из-за чего я тщательно готовился, но вечером, во время подготовки, меня отвлекла течь трубы в ванной, ремонт которого я постоянно откладывал. В итоге вечер ушел на поиск сантехника и уборку в затопленной ванной. Из-за сильной усталости я забыл закончить сбор вещей и лег спать.
Утром, за 5 минут до запланированного выхода, я вспомнил про то, что не полностью упаковал необходимые вещи. Сразу заказал такси и начал спешно собирать вещи. На сбор вещей ушло больше 30 минут.
Но ждать такси пришлось дольше положенного из-за плохой погоды в Москве. Я оплатил таксисту стоимость проезда по платной дороге, лишь бы успеть на рейс.
Дальше уже на полпути в такси, проверяя ручную кладь, понял, что забыл паспорт — решил ехать обратно. Доехал до аэропорта только спустя еще один час.
В аэропорту я понял, что рейс уже ушел без меня.Принятые меры
Несмотря на возникшие проблемы, были приняты меры, которые минимизировали или могли потенциально минимизировать ущерб.
- Сразу после того, как вспомнил про не до конца собранный багаж — заранее вызвал такси и начал собирать вещи.
- Из-за опаздания такси было решено ехать по платной дороге, чтобы успеть на рейс.
- После обнаружения отсутствия паспорта было решено ехать за ним, чтобы была возможность улететь, если успею.
- После инцидента позвонил в службу поддержки авиакомпании и перенес билет, что минимизировало финансовые потери.
Корневая причина
Целая совокупность причин привели к опазданию на рейс:
- Неподготовленный заранее (за несколько дней до рейса) багаж из-за недооценки времени на сбор вещей.
- Отвлечение на течь в ванной из-за постоянного откладывания ремонта в прошлом.
- Не посмотрел заранее погоду в этот день, чтобы быть готовым к таким задержкам.
- Забытый паспорт из-за несобранности и четкого плана подготовки к рейсу.
Извлеченные уроки
- Важно собирать вещи заранее, чтобы избежать спешки в последний момент.
- Не откладывать решение бытовых проблем, которые могут повлиять на планы.
- Учитывать влияние погоды и других независящих от тебя факторов на планы.
- Составлять четкий список вещей и документов, которые нужно собирать.