April 29Ended 5 months ago

ODS SPb Meetup. HighLoadDS

Оффлайн митапы ODS в Питере возрождаются! Тема первой встречи – Highload DS. Встречаемся 29го апреля в 19-00. Подробности ниже.

Мы решили объединить команды St. Petersburg Open Data Science Meetup и GPN Data Science Meetup и начать снова регулярно встречаться и обсуждать наше-датасайентистское. Тема первой встречи – Highload DS, поговорим о высоконагруженных сервисах рекомендаций и ускорении поиска с помощью индексов.

Прямая трансляция и чат будут доступны на YouTube, а всех, кто соскучился по оффлайн, ждем на Виленском переулке, 14 в Лектории Газпром нефти. Так как количество мест в зале ограничено, для входа просьба зарегистрироваться на TimePad. Приходите и зовите друзей!

1) Марк Паненко, Владимир Давидько (Rabota.ru), “Сервис рекомендаций с HRBert моделью в highload production”

В Работа.ру мы занимаемся разработкой сервисов на основе машинного обучения для улучшения пользовательского опыта при поиске работы. Недавно мы внедрили сервис рекомендаций, один из центральных сервисов нашей платформы.

В докладе расскажем о контент-ориентированных сервисах рекомендаций на основе Transformer-based модели, адаптированной для HR домена, а также о нашем опыте развития архитектурных решений в зависимости от нагрузки и ожидаемой производительности.

2) Артем Шарганов (Rabota.ru), “Рекомендации навыков с помощью Transformers и графовой БД Neo4j”

Месяц назад команда Работа.ру начала реализацию проекта real-time (почти) рекомендаций навыков на платформе. Сегодня мы поделимся тем, что у нас готово на данный момент, и поразмышляем, куда и как можно двигаться дальше.

В рамках доклада расскажем про жизненный цикл "навыка" на платформе:

  • как он появляется,
  • как рекомендуется для резюме,
  • как используется пользователями,
  • а также другими ML-сервисами

3) Амир Утеуов (Segmento), “Поисковые индексы в машинном обучении”

Задачи ранжирования, текстового поиска, определения схожести можно сформулировать, как задачи поиска ближайших объектов в векторном пространстве. Для эффективного поиска в большом количестве объектов применяются специальные структуры данных - поисковые индексы.

В докладе мы рассмотрим, как поисковые индексы улучшают производительность ML сервисов. В начале мы ознакомимся с идеями, которые стоят за поисковыми алгоритмами и структурами данных (HNSW, FAISS). Затем разберем как выбранный алгоритм поиска влияет на метрику качества и как можно улучшить качество выдачи, затронем как подобрать подходящий индекс и метрику расстояния под эмбеддинг (dot product, cos, distance metric learning).

На примерах матчинга текстовых документов, вопросно-ответной системы и поиска по изображениям мы увидим, как выбранный индекс помог многократно улучшить производительность, сохранив достаточное качество выдачи и какие аспекты в подобных задачах необходимо учитывать.