Ended 2 years ago
Оффлайн митапы ODS в Питере возрождаются! Тема первой встречи – Highload DS. Встречаемся 29го апреля в 19-00. Подробности ниже.
Мы решили объединить команды St. Petersburg Open Data Science Meetup и GPN Data Science Meetup и начать снова регулярно встречаться и обсуждать наше-датасайентистское. Тема первой встречи – Highload DS, поговорим о высоконагруженных сервисах рекомендаций и ускорении поиска с помощью индексов.
Прямая трансляция и чат будут доступны на YouTube, а всех, кто соскучился по оффлайн, ждем на Виленском переулке, 14 в Лектории Газпром нефти. Так как количество мест в зале ограничено, для входа просьба зарегистрироваться на TimePad. Приходите и зовите друзей!
1) Марк Паненко, Владимир Давидько (Rabota.ru), “Сервис рекомендаций с HRBert моделью в highload production”
В Работа.ру мы занимаемся разработкой сервисов на основе машинного обучения для улучшения пользовательского опыта при поиске работы. Недавно мы внедрили сервис рекомендаций, один из центральных сервисов нашей платформы.
В докладе расскажем о контент-ориентированных сервисах рекомендаций на основе Transformer-based модели, адаптированной для HR домена, а также о нашем опыте развития архитектурных решений в зависимости от нагрузки и ожидаемой производительности.
2) Артем Шарганов (Rabota.ru), “Рекомендации навыков с помощью Transformers и графовой БД Neo4j”
Месяц назад команда Работа.ру начала реализацию проекта real-time (почти) рекомендаций навыков на платформе. Сегодня мы поделимся тем, что у нас готово на данный момент, и поразмышляем, куда и как можно двигаться дальше.
В рамках доклада расскажем про жизненный цикл "навыка" на платформе:
3) Амир Утеуов (Segmento), “Поисковые индексы в машинном обучении”
Задачи ранжирования, текстового поиска, определения схожести можно сформулировать, как задачи поиска ближайших объектов в векторном пространстве. Для эффективного поиска в большом количестве объектов применяются специальные структуры данных - поисковые индексы.
В докладе мы рассмотрим, как поисковые индексы улучшают производительность ML сервисов. В начале мы ознакомимся с идеями, которые стоят за поисковыми алгоритмами и структурами данных (HNSW, FAISS). Затем разберем как выбранный алгоритм поиска влияет на метрику качества и как можно улучшить качество выдачи, затронем как подобрать подходящий индекс и метрику расстояния под эмбеддинг (dot product, cos, distance metric learning).
На примерах матчинга текстовых документов, вопросно-ответной системы и поиска по изображениям мы увидим, как выбранный индекс помог многократно улучшить производительность, сохранив достаточное качество выдачи и какие аспекты в подобных задачах необходимо учитывать.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.