Что нужно агенту помимо диффа: как мы строили code review пайплайн, который позволяет агентам глубоко исследовать код

Middle
AI & ML
Стандартная схема AI-ревью — передать дифф в языковую модель и разобрать ответ. На практике такой ревьюер работает вслепую: не понимает контекст проекта, не знает принятых паттернов, не может проверить, что происходит с вызываемым кодом в соседних сервисах. Мы построили агентский пайплайн, где модель перестаёт быть пассивным читателем диффа и сама исследует кодовую базу: ходит в поиск по коду, открывает связанные файлы, проверяет историю коммитов — и только собрав контекст, формулирует замечание.
В докладе покажем, как устроен пайплайн изнутри и какие инструменты мы дали агентам. Честно расскажем про продакшен-грабли: агенты зацикливаются на поиске, галлюцинируют номера строк, а агент-критик иногда вместо фильтрации мусора выбрасывает все находки целиком. Поделимся результатами бенчмарка на живых пулл-реквестах и покажем метрики, по которым мы сравниваем конфигурации и решаем, стало лучше или хуже.
О СПИКЕРЕ
Работаю в Avito tech DS Engineer в команде LLM
Учусь на факультете компьютерных наук НИУ ВШЭ на совместной программе с Авито
Выпускник Школы Анализа Данных яндекса

Занимаюсь ресерчем в области NLP, автор статей по оптимизации политики моделей для кода и SOTA подходов к токенизации Арабских языков
Марк Каширский
Avito tech, Москва
Senior DS@LLM team