Data Fest 2026 | Москва, 31 мая, офлайн день — Open Data Science

Ended 7 weeks ago

Description Расписание

Зал «Экстрополиc», секция Practical ML

Тема и спикер	Описание	Тайминг
Владислав Офицеров, Руководитель службы развития нейронных технологий в международном Поиске Яндекса	Открытие секции Practical ML	13:00 - 13:10
X-split ARGUS: авторегрессивный энкодер-декодер для ранжирования рекламы Александр Плошкин, Поисковые сервисы и ИИ	Доклад о развитии архитектуры ARGUS: от context-aware-бейзлайна с узким местом в виде одного user-вектора (cos-sim) — к target-aware и далее к X-split. Покажу, как переход к позднему связыванию и cross-attention с разделением истории на офлайн и рантайм улучшает качество. Кратко разберу обучение X-split: windowed attention для эмуляции лага, онлайн-батчевание и дистилляцию от Target-Aware. В конце — результаты и планы развития.	13:10 - 13:40
AI-агенты для оптимизации бизнеса Яндекс Лавки Алёна Зайцева, Городские сервисы, Яндекс Лавка	Мы в Лавке активно занимаемся AI’изацией, чтобы ускорять разработку новых идей и запуск новых проектов, повышать качество сервиса, удешевлять масштабирование бизнеса и так далее. В докладе расскажу про подход к AI’изации с точки зрения коммуникаций и целеполагания, расчёта и приёмки эффектов и, конечно, техники и скорости: почему мы решили строить целую платформу агентов и как она устроена. На конкретных примерах разберу устройство нескольких агентов.	13:40 - 14:10
Контролируемая генерация многокамерного видео для симуляции сенсорных данных автономного транспорта Анастасия Демидова, Б2Б Тех	В докладе представлю подход к генерации фотореалистичного многокамерного видео для имитации данных сенсоров автономного транспорта с использованием современных диффузионных моделей. Метод воспроизводит реалистичные видео на основе структурного описания сцены (траектории агентов, конфигурация дорожной инфраструктуры, погодные условия и время суток). Такой подход позволяет быстро и воспроизводимо тестировать и улучшать алгоритмы восприятия и планирования, проигрывая широкий спектр сценариев в виртуальной среде симулятора.	14:10 - 14:40
перерыв		14:40 - 15:20
Гибридная генеративно-ранжирующая модель на базе Semantic IDs в рекомендациях Яндекс Музыки Дарья Тихонович, Поисковые сервисы и ИИ	Технология генеративных рекомендаций на базе Semantic IDs захватывает сейчас все крупнейшие мировые системы персонализации. Расскажу о нашем опыте разработки этого направления. Опишу наши эксперименты с семантическим индексом, методами получения эмбеддингов, разными алгоритмами квантизации и архитектурами генеративных моделей. Покажу результаты офлайн- и онлайн-экспериментов. Опишу разработанный нами гибридный подход к генеративным рекомендациям, с помощью которого мы вышли на качество далеко за границами стандартных подходов к кандидатогенерации.	15:20 - 15:50
AgentOps в продакшене: инфраструктура для LLM-агентов и автоматизация поддержки Персональных сервисов Яндекса Иван Насонов, Персональные сервисы	Доклад посвящён развитию автоматизации пользовательской поддержки в Персональных сервисах Яндекса с использованием LLM-агентов. Расскажу, как удалось добиться одновременно высокого качества ответов и производительности на уровне около 5 мс на токен благодаря собственной инфраструктуре для развёртывания моделей на базе SGLang. Отдельное внимание уделю внутреннему продукту команды Conclave AI: как он упрощает разработку агентных решений, сокращает time-to-production и позволяет масштабировать внедрение LLM-агентов в реальных сервисах.	15:50 - 16:20
перерыв		16:20 - 16:45
Как ускорить мультимодальную разметку в четыре раза без потери качества: обучение компактной VLM на сложных данных и доменных проектах Александр Мандров, Поисковые сервисы и ИИ	В Crowd всё больше мультимодальных задач, где асессорская разметка зависит сразу от текста и изображения. Для таких сценариев в продукте мы используем Yandex VLM Pro, но на потоке в десятки миллионов заданий в месяц большая модель оказывается слишком дорогой. В докладе расскажу, как мы пытались довести компактную Yandex VLM Light до качества Pro в отдельных продуктовых доменах: вместо обучения на всём массиве данных отбирали только самые сложные и информативные примеры, дообогащённые рассуждениями большой модели. Покажу, когда такая дистилляция действительно окупается, какие стратегии фильтрации данных работают на реальных краудсорсинговых данных и в каких случаях маленькая модель уже может заменить большую в проде.	16:45 - 17:15
Closed-loop RL для задачи автономного вождения Павел Лукьянов, Б2Б Тех	Обучение ML-планировщика для автономного автомобиля часто состоит из двух этапов: Imitation Learning на водительских проездах с целью формирования разумной политики, а затем Reinforcement Learning для улучшения поведения в сложных сценариях. Ключевая проблема — IL оптимизирует близость к ground-truth-траектории водителя, но не гарантирует устойчивое поведение в замкнутом контуре. Доклад посвящён практическому сетапу Closed-loop RL: архитектуре pretrain, минимальным требованиям к среде и симуляции, а также выбору алгоритмов и ревордов для стабильного обучения.	17:15 - 17:45
ARGUS: большой рекомендательный трансформер в системе с сотнями тысяч RPS Георгий Смирнов, Поисковые сервисы и ИИ	Расскажу, как мы успешно внедрили большой рекомендательный трансформер ARGUS в рекламу Яндекса, что стало крупнейшим изменением нейросетевой архитектуры рекламной системы компании. Поделюсь опытом решения этой амбициозной задачи: какие инженерные находки и компромиссы позволили запустить тяжёлую модель в жёстких условиях продакшена с нагрузкой в сотни тысяч RPS.	17:45 - 18:15
афтерпати		18:15 - 22:00

Зал «Мулен Руж»

Тема и спикер	Секция	Тайминг
Дмитрий Кириллов, Руководитель отдела аналитики, Т-Банк	Открытие секции Analytical DS	13:00 - 13:10
Double Machine Learning vs Propensity Score Matching: как оценивать нерандомизированные эксперименты быстрее и надежнее? Платон Попов, Wildberries & Russ, Аналитик данных	Analytical DS	13:10 - 13:40
Как выжать максимум из ML-моделей, когда данных слишком мало? Олеся Норицына, Cube \| D'Innovate, Data Scientists	Analytical DS	13:40 - 14:10
Атрибуция дальних действий в моделях конверсии Кирилл Вайсер, Авито, Data scientist	Analytical DS	14:10 - 14:40
перерыв		14:40 - 15:20
Про антифрод и котиков: как бороться с фродом, а не просто лучше его детектить Алексей Никифоров, Яндекс, Старший Аналитик-Разработчик	Analytical DS	15:20 - 15:50
EMPI Agent: фреймворк для нейроотличных студентов Виктория Фирсанова, Высшая школа экономики, преподаватель	ML & Education	15:50 - 16:20
перерыв		16:20 - 16:45
ИИ-генерация учебного контента и проверка открытых ответов студентов Денис Королев, МИЭМ НИУ ВШЭ, Доцент	ML & Education	16:45 - 17:15
От линейного текста к семантическому графу: строим knowledge‑extraction‑пайплайн для учебы Аскольд Романов, Сбер (ex. Яндекс), CJE Lead	ML & Education	17:15 - 17:45
ИИ-тьютор и методы его оценки Ольга Масаева, Полина Поветьева, Море данных, Исследователь данных	ML & Education	17:45 - 18:15
афтерпати		18:15 - 22:00

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy