Senior Data Scientist (NLP, LLM)

Posted:
Moscow
Office
Full-time

#LLM

Brief description of the vacancy

Мы создаём ИИ-решения для бизнес-задач (включая обеспечение данными и инфраструктурой): от генеративного поиска и автоматического протоколирования совещаний до первых в Сбере автономных AI-агентов. Работаем с текстами, таблицами, графами, аудио и изображениями.

Особое внимание уделяем решениям на базе GenAI (например, GigaChat), но используем и специализированные DL-модели, а также классические методы анализа данных. Большинство наших специалистов (DS, DE, DA, MLOps) охватывают весь цикл разработки: от разработки PoC до промышленного внедрения Data- и AI-сервисов. Также ведём исследовательские проекты в таких областях, как графы, мультимодальные модели и работа со звуком.

Присоединяйся к нашей команде!

About the company

Company Сбер

Описание команды:

Мы разрабатываем AI-агентов для продуктовых команд и ТОП-процессов Блока "Стратегия и развитие", совмещая Classic NLP, LLM-based и мультиагентные подходы с целью повышения внутренней эффективности и автономизации задач на основе Leading Edge технологий в области AI.

Основные направления деятельности:

  • Мэтчим разные сущности банка (продукты, функции, цели, встречи, письма, задачи Jira и др.) для создания полной картины в рамках анализа эффективности всей организации
  • Формируем рекомендации по повышению эффективности на основе классификации, кластеризации и тематического моделирования с использованием цифровых следов
  • Реализуем пайплайны обработки внутренних документов произвольной длины для максимального ускорения работы с ними (маршрутизация, рекомендация замечаний и генерация корректных документов с нуля)
  • Проводим анализ графов целей организации (связанность, каскадирование, полнота и актуальность) для выравнивания стратегии банка на всех уровнях, а также рекомендуем амбициозные цели с учетом контекста и приоритетов стратегии
  • Расширяем направление доменной адаптации для прокачивания стримов семантического поиска, ранжирования и прочих NLP downstream-задач
  • Участвуем в развитии глобального направления AI-агентов и регулярно используем в работе современные подходы на основе LLM (External Tools, Reasoning, Reflection)
  • Проверяем гипотезы любой сложности для получения Data-driven инсайтов, которые становятся предметом обсуждения на стратегических сессиях руководства банка

В наши глобальные планы входит:

  • Разработка и внедрение AI-агентов для самых приоритетных стратегических процессов банка с потенциалом переиспользования на внешнем рынке
  • Создание SotA-решений с учетом специфики банка

Responsibilities

  • Разработка и внедрение ML-моделей и AI-агентов от этапа MVP до ПРОМ (CRISP-DM)
  • Решение задач NLP: Preprocessing, Classification, Summarization (Ext/Abst), Sentence Compression, Simplification, NER, Semantic Search, Clustering и др.
  • Создание мультиагентных пайплайнов на основе фреймворков для работы с LLM (LangChain/GigaChain)
  • Адаптация и обучение языковых моделей (LLM) Сбера на основе внутренних и внешних данных (In-Context Learning, Prompt Tuning, RAG, PEFT)
  • Индексация и ранжирование текстовых документов разной длины
  • Взаимодействие с бизнес-заказчиком для выявления требований и самостоятельная постановка задач
  • Определение ML SysDes решения с учетом разрешенного технологического стека
  • Участие в валидации и автомониторинге моделей, проведение A/B тестирования

Requirements

  • образование в техническом ВУЗе в сфере компьютерных наук, прикладной математики или статистики. Наиболее приоритетны: ВШЭ, МФТИ, МГУ, МИФИ
  • опыт в разработке NLP моделей (обязательно) и рекомендательных систем (желательно)
  • понимание жизненного цикла моделей (CRISP-DM)
  • умение переводить бизнес-постановку задачи в ML-постановку, грамотная интерпретация полученных результатов
  • высокий уровень владения ядром Python и SQL
  • свободное владение базовыми библиотеками на Python: pandas, numpy, matplotlib, seaborn и др.
  • знание фреймворков, библиотек, алгоритмов машинного обучения: Scikit-learn, Pytorch, XGBoost, CatBoost, TensorFlow, transformers
  • опыт работы с NLP библиотеками: pymorphy2, NLTK, Gensim, spaCy, regexp
  • WEB-фреймворки: FastAPI (async methods), Flask и др.
  • знание архитектур нейронных сетей: RNN, LSTM, трансформеры (BERT, BART, T5)
  • знание фреймворков для работы с LLM (LangChain/GigaChain, LangServe/GigaServe, LlamaIndex и др.)
  • контейнеризация: Docker, OpenShift

Working conditions

  • Ипотека выгоднее на 7% для каждого сотрудника и льготные условия кредитования
  • Бесплатная подписка СберПрайм+
  • Скидки на продукты компаний-партнеров
  • ДМС с первого дня и льготное страхование для близких
  • Корпоративная пенсионная программа
  • Обучение за счет компании: онлайн курсы в онлайн-школе Сбера и неограниченный доступ к библиотеке, обучение в Корпоративном университете, тренинги, митапы и возможность получить новую квалификацию
  • Крупнейшее DS&AI community – более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы

Contacts

Log InOnly registered users can open employer contacts.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.