Hidden
Дата-инженер в команду лаборатории Сбериндекс

Created:
Moscow
from RUB 250,000/month
Office
Full-time

DEPythonSpark

Moderation Review

In the archive

Brief description of the vacancy

Мы активно занимаемся подготовкой высокогранулярных данных и аналитикой с актуальными инсайтами о жизни людей, предприятий и территорий в стране. Поэтому сейчас ищем Senior / middle data engineer для технической поддержки исследований, подготовки данных, проектирования и выстраивания системы контроля качества данных.

About the company

Сбериндекс - это команда Сбера, которая работает над задачами population inference на основе транзакционных данных и данных из платежных систем банка. Команда состоит из исследователей и дата-инженеров с экспертизой источников данных (выпускники РЭШ, РЭШ/ШАД, МФТИ, ВМК МГУ).

Responsibilities

  • Анализ данных в различных системах для исследований (структура, полнота, логика), проектирование и разработка витрин данных (Spark, Hadoop, Kafka, GreenPlum, PostgreSQL)
  • Написание приложений на PySpark для выгрузки и трансформации данных в ETL/ELT-процессах
  • Настройка и поддержка системы контроля качества загружаемых данных - архитектура, поиск аномалий, технические и специфические проверки, хранение метаданных, разработка оповещений по инцидентам, разбор инцидентов
  • Техническая поддержка исследователей, включая оптимизацию запросов (SQL, Spark), повышение эффективности вычислений и хранения
  • Работа над техническим развитием проектов и команды - базы знаний, code review, трекинг задач, написание документации, развитие компетенций

Requirements

Ожидания от кандидата

  • Опыт работы в качестве Data Engineer / ML Engineer / ETL Developer, в том числе, по разработке витрин данных, опыт работы с big data стеком - PySpark, Hadoop (Hive / Oozie), Kafka, GreenPlum
  • Продвинутые знания SQL - аналитические функции, подзапросы, хранимые процедуры, оптимизация запросов
  • Понимание понятий и концепций проектирования DWH
  • Понимание MapReduce и параллелизма в Python
  • Знание Linux, Git, Grafana

Будет преимуществом

  • Навыки работы с Airflow
  • Опыт работы написания кода для машинного обучения на PySpark
  • Понимание принципов устройства JVM

Working conditions

  • Уникальный проект, ориентированный на амбициозную стратегию, - подготовка детальных датасетов на основе больших данных, генерируемых платежными системами, для оценки актуальных социально-экономических проблем
  • Работа с данными различной природы, из различных источников, возможность познакомиться с тем, как устроены различные стороны бизнеса банка и технологической компании
  • Результаты вашей работы будут иметь реальное влияние на стратегии бизнеса, возможности улучшать условия жизни людей. Постоянный контакт и обратная связь от руководства.
  • Достойный уровень оплаты труда.

Contacts

Cookies help us deliver our services. By using our services, you agree to our use of cookies.