Следствие вели SRE: что делать, когда всё падает?

Middle
Devops
Микросервисная архитектура обещает масштабируемость и независимость команд, но в реальности именно она часто становится источником сложных, каскадных инцидентов. Один неудачный релиз, неправильно настроенный таймаут или ретрай в конце цепочки — и деградация быстро распространяется по всей системе.

В этом докладе:
— поговорим, почему инциденты в сложных распределённых микросервисных системах это интересные квесты на hard-mode уровне для SRE;

— расскажем, как мы, SRE инженеры, смотрим на инциденты в продакшене крупного банка: от начала инцидента до postmortem и lessons learned;

— со слушателями доклада проведем расследование реального примера инцидента и разберём, как сочетание архитектурных решений, нагрузки и операционных процессов привело к сбою в банке;

— обсудим, какие SRE-практики помогают минимизировать влияние проблемы, как ускорить решение инцидентов и грамотно наложить эти практики в реалии.

Доклад будет полезен SRE, backend-разработчикам, тимлидам и всем, кто отвечает за надёжность сложных распределённых систем.
О СПИКЕРЕ
SRE-инженер с 4+ годами опыта в эксплуатации и повышении надежности распределенных систем. Прошла путь от младшего Unix-администратора до ведущего SRE-инженера. Работала в международной компании, где получила сильную инженерную и процессную базу. Более 2 лет сопровождаю PaaS-платформу App. Farm в РСХБ. Цифра, фокусируясь на надёжности платформы, наблюдаемости и операционных практиках.
Анастасия Цепелева
РСХБ-Интех, Казань
Ведущий SRE-инженер