Микросервисная архитектура обещает масштабируемость и независимость команд, но в реальности именно она часто становится источником сложных, каскадных инцидентов. Один неудачный релиз, неправильно настроенный таймаут или ретрай в конце цепочки — и деградация быстро распространяется по всей системе.
В этом докладе:
— поговорим, почему инциденты в сложных распределённых микросервисных системах это интересные квесты на hard-mode уровне для SRE;
— расскажем, как мы, SRE инженеры, смотрим на инциденты в продакшене крупного банка: от начала инцидента до postmortem и lessons learned;
— со слушателями доклада проведем расследование реального примера инцидента и разберём, как сочетание архитектурных решений, нагрузки и операционных процессов привело к сбою в банке;
— обсудим, какие SRE-практики помогают минимизировать влияние проблемы, как ускорить решение инцидентов и грамотно наложить эти практики в реалии.
Доклад будет полезен SRE, backend-разработчикам, тимлидам и всем, кто отвечает за надёжность сложных распределённых систем.
SRE-инженер с 4+ годами опыта в эксплуатации и повышении надежности распределенных систем. Прошла путь от младшего Unix-администратора до ведущего SRE-инженера. Работала в международной компании, где получила сильную инженерную и процессную базу. Более 2 лет сопровождаю PaaS-платформу App. Farm в РСХБ. Цифра, фокусируясь на надёжности платформы, наблюдаемости и операционных практиках.