Hidden
Дата-инженер в команду лаборатории Сбериндекс

Created:
Moscow
from RUB 250,000/month
Office
Full-time

DEPythonSpark

Moderation Review

In the archive

Brief description of the vacancy

Мы активно занимаемся подготовкой высокогранулярных данных и аналитикой с актуальными инсайтами о жизни людей, предприятий и территорий в стране. Поэтому сейчас ищем Senior / middle data engineer для технической поддержки исследований, подготовки данных, проектирования и выстраивания системы контроля качества данных.

About the company

Company Сбербанк

Сбериндекс - это команда Сбера, которая работает над задачами population inference на основе транзакционных данных и данных из платежных систем банка. Команда состоит из исследователей и дата-инженеров с экспертизой источников данных (выпускники РЭШ, РЭШ/ШАД, МФТИ, ВМК МГУ).

Responsibilities

  • Анализ данных в различных системах для исследований (структура, полнота, логика), проектирование и разработка витрин данных (Spark, Hadoop, Kafka, GreenPlum, PostgreSQL)
  • Написание приложений на PySpark для выгрузки и трансформации данных в ETL/ELT-процессах
  • Настройка и поддержка системы контроля качества загружаемых данных - архитектура, поиск аномалий, технические и специфические проверки, хранение метаданных, разработка оповещений по инцидентам, разбор инцидентов
  • Техническая поддержка исследователей, включая оптимизацию запросов (SQL, Spark), повышение эффективности вычислений и хранения
  • Работа над техническим развитием проектов и команды - базы знаний, code review, трекинг задач, написание документации, развитие компетенций

Requirements

Ожидания от кандидата

  • Опыт работы в качестве Data Engineer / ML Engineer / ETL Developer, в том числе, по разработке витрин данных, опыт работы с big data стеком - PySpark, Hadoop (Hive / Oozie), Kafka, GreenPlum
  • Продвинутые знания SQL - аналитические функции, подзапросы, хранимые процедуры, оптимизация запросов
  • Понимание понятий и концепций проектирования DWH
  • Понимание MapReduce и параллелизма в Python
  • Знание Linux, Git, Grafana

Будет преимуществом

  • Навыки работы с Airflow
  • Опыт работы написания кода для машинного обучения на PySpark
  • Понимание принципов устройства JVM

Working conditions

  • Уникальный проект, ориентированный на амбициозную стратегию, - подготовка детальных датасетов на основе больших данных, генерируемых платежными системами, для оценки актуальных социально-экономических проблем
  • Работа с данными различной природы, из различных источников, возможность познакомиться с тем, как устроены различные стороны бизнеса банка и технологической компании
  • Результаты вашей работы будут иметь реальное влияние на стратегии бизнеса, возможности улучшать условия жизни людей. Постоянный контакт и обратная связь от руководства.
  • Достойный уровень оплаты труда.

Contacts

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy