Ended 3 years ago
91 participants
425 submissions

Materials (54 MB)

Download all materials
comp_students.csv
2 MB
comp_portrait.csv
1 MB
comp_marks.csv
19 MB
comp_disc.csv
14 MB
comp_teachers.csv
1 MB
train.csv
11 MB
sample_submission.csv
3 MB
test.csv
2 MB
baseline.ipynb
1 MB

В указанных таблицах представлены лишь данные с 1 по 6 семестры обучения студентов

Не все данные соответствуют друг другу 1:1, например данных об обучении студентов заведомо больше, чем есть данных в оценках, поскольку цель задания - предсказать по этим данным долги за указанный период. Информация по дисциплинам может быть избыточной.

Таблица comp_students.csv ~11000 строк

  • ISU - UID студента
  • COURSE - курс обучения, которому соответствует запись
  • DATE_START - начало периода обучения
  • DATE_END - конец периода обучения
  • PRIZNAK - состояние на конец периода обучения (обучен, академ, отчислен)
  • MAIN_PLAN - образовательный план в данный промежуток времени

Таблица comp_portrait.csv ~ 5000 строк

  • ISU - UID студента
  • GENDER - пол
  • CITIZENSHIP - гражданство
  • EXAM_TYPE - форма зачисления (ЕГЭ, олимпиада, ВИ - вступительные испытания)
  • EXAM_SUBJECT_1 - первый экзамен ЕГЭ
  • EXAM_SUBJECT_2 - второй экзамен ЕГЭ
  • EXAM_SUBJECT_3 - третий экзамен ЕГЭ
  • ADMITTED_EXAM_1 - баллы за 1 экзамен ЕГЭ
  • ADMITTED_EXAM_2 - баллы за 2 экзамен ЕГЭ
  • ADMITTED_EXAM_3 - баллы за 3 экзамен ЕГЭ
  • ADMITTED_SUBJECT_PRIZE_LEVEL - уровень олимпиады (если есть)
  • REGION_ID - номер региона

Таблица comp_marks.csv

  • ISU - UID студента
  • ST_YEAR - год начала курса (первое число из формата 2020/2021)
  • SEMESTER - фактический семестр, в котором получена оценка
  • TYPE_NAME - форма отчетности
  • MARK - оценка (или зачет/незачет)
  • MAIN_PLAN - учебный план
  • DISC_ID - UID дисциплины
  • PRED_ID - UID преподавателя

Таблица comp_disc.csv

  • PLAN_ID - UID учебного плана (то же что и MAIN_PLAN - значения в этих колонках соответствуют друг другу и могут быть использованы для сопоставления таблиц)
  • DISC_ID - UID дисциплины
  • СHOICE - выборность дисциплины
  • SEMESTER - семестр проведения дисциплины в данном учебном плане
  • DISC_NAME - название дисциплины
  • DISC_DEP - факультет-реализатор дисциплины

Таблица train.csv

Таргет для обучения с оценками и количеством долгов студентов за 2017 - 2020 учебные годы (без 2021/2022 года)

  • ISU - UID студента
  • SEMESTER - семестр получения оценки
  • DISC_ID - UID дисциплины
  • DEBT - факт наличия долга (0 - отсутствие, 1 - наличие) - таргет

Таблица comp_teachers.csv

  • ISU - UID преподавателя
  • GENDER - Пол
  • DATE_BIRTH - Год рождения преподавателя
  • ST_YEAR - год обучения
  • SEMESTER - семестр преподавания
  • DISC_ID - UID преподаваемой дисциплины
  • MAIN_PLAN - UID учебного плана данной программы
  • TYPE_NAME - форма контроля по предмету (экзамен, зачет, дифференцированный зачет)
  • MARK - средняя оценка, выставленная преподавателем

Таблица test.csv

Данные для теста - оценки и долги студентов за осенний семестр 2021/2022 года

  • ISU - UID студента
  • ST_YEAR - учебный год получения оценки
  • SEMESTER - семестр получения оценки
  • DISC_ID - UID дисциплины
  • TYPE_NAME - форма отчетности

Файл с решением sample_submission.csv

  • ID - id с информацией о студенте и предмете
    data_test['ID'] = data_test[['ISU', 'ST_YEAR', 'DISC_ID', 'SEMESTER', 'TYPE_NAME']].apply( lambda x: f'ISU:{x[0]} | ST_YEAR:{x[1]} | DISC_ID:{x[2]} | SEMESTER:{x[3]} | TYPE_NAME:{x[4]}', axis =1)
  • DEBT - предсказание наличия долга (0 - отсутствие, 1 - наличие)

Формирование решения смотрите в baseline.ipynb

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy