Ended 3 years ago
Оффлайн митапы ODS в Питере возрождаются! Тема первой встречи – Highload DS. Встречаемся 29го апреля в 19-00. Подробности ниже.
Мы решили объединить команды St. Petersburg Open Data Science Meetup и GPN Data Science Meetup и начать снова регулярно встречаться и обсуждать наше-датасайентистское. Тема первой встречи – Highload DS, поговорим о высоконагруженных сервисах рекомендаций и ускорении поиска с помощью индексов.
Прямая трансляция и чат будут доступны на YouTube, а всех, кто соскучился по оффлайн, ждем на Виленском переулке, 14 в Лектории Газпром нефти. Так как количество мест в зале ограничено, для входа просьба зарегистрироваться на TimePad. Приходите и зовите друзей!
1) Марк Паненко, Владимир Давидько (Rabota.ru), “Сервис рекомендаций с HRBert моделью в highload production”
В Работа.ру мы занимаемся разработкой сервисов на основе машинного обучения для улучшения пользовательского опыта при поиске работы. Недавно мы внедрили сервис рекомендаций, один из центральных сервисов нашей платформы.
В докладе расскажем о контент-ориентированных сервисах рекомендаций на основе Transformer-based модели, адаптированной для HR домена, а также о нашем опыте развития архитектурных решений в зависимости от нагрузки и ожидаемой производительности.
2) Артем Шарганов (Rabota.ru), “Рекомендации навыков с помощью Transformers и графовой БД Neo4j”
Месяц назад команда Работа.ру начала реализацию проекта real-time (почти) рекомендаций навыков на платформе. Сегодня мы поделимся тем, что у нас готово на данный момент, и поразмышляем, куда и как можно двигаться дальше.
В рамках доклада расскажем про жизненный цикл "навыка" на платформе:
3) Амир Утеуов (Segmento), “Поисковые индексы в машинном обучении”
Задачи ранжирования, текстового поиска, определения схожести можно сформулировать, как задачи поиска ближайших объектов в векторном пространстве. Для эффективного поиска в большом количестве объектов применяются специальные структуры данных - поисковые индексы.
В докладе мы рассмотрим, как поисковые индексы улучшают производительность ML сервисов. В начале мы ознакомимся с идеями, которые стоят за поисковыми алгоритмами и структурами данных (HNSW, FAISS). Затем разберем как выбранный алгоритм поиска влияет на метрику качества и как можно улучшить качество выдачи, затронем как подобрать подходящий индекс и метрику расстояния под эмбеддинг (dot product, cos, distance metric learning).
На примерах матчинга текстовых документов, вопросно-ответной системы и поиска по изображениям мы увидим, как выбранный индекс помог многократно улучшить производительность, сохранив достаточное качество выдачи и какие аспекты в подобных задачах необходимо учитывать.
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy