Опыт перехода от maas к selfhosted/on premise моделям: проблемы, боли, решения

Senior
AI & ML
В докладе поделимся практическим опытом переезда высоконагруженных AI-сценариев с вендорских моделей как услуги (MaaS) на локальные (on-premise) LLM, STT и эмбеддинги. Расскажем про реальные инженерные проблемы такого перехода: от ограничений контекстного окна и ресурсоемкости его обработки до деградации скорости инференса на фреймворках вроде vLLM и сложностей балансировки разноплановой нагрузки. Развенчаем популярные мифы о хостинге моделей и дадим конкретные инсайты, основанные на эксплуатации ансамбля моделей, обрабатывающего миллионы запросов в месяц.
О СПИКЕРЕ
Сергей отвечает на направление LLM-моделей, поиск, анализ, адаптацию и тестирование нейросетей на собственных сценариях Битрикс24. Занимается разработкой бенчмарка для сравнения ML-моделей.

Помогает активно внедрять AI-технологии в работу разных департаментов компании — от бухгалтерии до разработки.

Является постоянным ведущим бесплатного онлайн-практикума AIшница для руководителей и предпринимателей. Регулярно выступает на отраслевых конференциях, участвует в подкастах и делится комментариями со СМИ. Например, CRM CONF, Ural Digital Weekend и Mad Brains.
Сергей Нотевский
Битрикс24, Калининград
Разработчик команды AI/ML