Ends in 2 weeks
60 participants
164 submissions

Materials (54 MB)

Download all materials
comp_students.csv
2 MB
comp_portrait.csv
1 MB
comp_marks.csv
19 MB
comp_disc.csv
14 MB
comp_teachers.csv
1 MB
train.csv
11 MB
sample_submission.csv
3 MB
test.csv
2 MB
baseline.ipynb
1 MB

В указанных таблицах представлены лишь данные с 1 по 6 семестры обучения студентов

Не все данные соответствуют друг другу 1:1, например данных об обучении студентов заведомо больше, чем есть данных в оценках, поскольку цель задания - предсказать по этим данным долги за указанный период. Информация по дисциплинам может быть избыточной.

Таблица comp_students.csv ~11000 строк

  • ISU - UID студента
  • COURSE - курс обучения, которому соответствует запись
  • DATE_START - начало периода обучения
  • DATE_END - конец периода обучения
  • PRIZNAK - состояние на конец периода обучения (обучен, академ, отчислен)
  • MAIN_PLAN - образовательный план в данный промежуток времени

Таблица comp_portrait.csv ~ 5000 строк

  • ISU - UID студента
  • GENDER - пол
  • CITIZENSHIP - гражданство
  • EXAM_TYPE - форма зачисления (ЕГЭ, олимпиада, ВИ - вступительные испытания)
  • EXAM_SUBJECT_1 - первый экзамен ЕГЭ
  • EXAM_SUBJECT_2 - второй экзамен ЕГЭ
  • EXAM_SUBJECT_3 - третий экзамен ЕГЭ
  • ADMITTED_EXAM_1 - баллы за 1 экзамен ЕГЭ
  • ADMITTED_EXAM_2 - баллы за 2 экзамен ЕГЭ
  • ADMITTED_EXAM_3 - баллы за 3 экзамен ЕГЭ
  • ADMITTED_SUBJECT_PRIZE_LEVEL - уровень олимпиады (если есть)
  • REGION_ID - номер региона

Таблица comp_marks.csv

  • ISU - UID студента
  • ST_YEAR - год начала курса (первое число из формата 2020/2021)
  • SEMESTER - фактический семестр, в котором получена оценка
  • TYPE_NAME - форма отчетности
  • MARK - оценка (или зачет/незачет)
  • MAIN_PLAN - учебный план
  • DISC_ID - UID дисциплины
  • PRED_ID - UID преподавателя

Таблица comp_disc.csv

  • PLAN_ID - UID учебного плана (то же что и MAIN_PLAN - значения в этих колонках соответствуют друг другу и могут быть использованы для сопоставления таблиц)
  • DISC_ID - UID дисциплины
  • СHOICE - выборность дисциплины
  • SEMESTER - семестр проведения дисциплины в данном учебном плане
  • DISC_NAME - название дисциплины
  • DISC_DEP - факультет-реализатор дисциплины

Таблица train.csv

Таргет для обучения с оценками и количеством долгов студентов за 2017 - 2020 учебные годы (без 2021/2022 года)

  • ISU - UID студента
  • SEMESTER - семестр получения оценки
  • DISC_ID - UID дисциплины
  • DEBT - факт наличия долга (0 - отсутствие, 1 - наличие) - таргет

Таблица comp_teachers.csv

  • ISU - UID преподавателя
  • GENDER - Пол
  • DATE_BIRTH - Год рождения преподавателя
  • ST_YEAR - год обучения
  • SEMESTER - семестр преподавания
  • DISC_ID - UID преподаваемой дисциплины
  • MAIN_PLAN - UID учебного плана данной программы
  • TYPE_NAME - форма контроля по предмету (экзамен, зачет, дифференцированный зачет)
  • MARK - средняя оценка, выставленная преподавателем

Таблица test.csv

Данные для теста - оценки и долги студентов за осенний семестр 2021/2022 года

  • ISU - UID студента
  • ST_YEAR - учебный год получения оценки
  • SEMESTER - семестр получения оценки
  • DISC_ID - UID дисциплины
  • TYPE_NAME - форма отчетности

Файл с решением sample_submission.csv

  • ID - id с информацией о студенте и предмете
    data_test['ID'] = data_test[['ISU', 'ST_YEAR', 'DISC_ID', 'SEMESTER', 'TYPE_NAME']].apply( lambda x: f'ISU:{x[0]} | ST_YEAR:{x[1]} | DISC_ID:{x[2]} | SEMESTER:{x[3]} | TYPE_NAME:{x[4]}', axis =1)
  • DEBT - предсказание наличия долга (0 - отсутствие, 1 - наличие)

Формирование решения смотрите в baseline.ipynb