В указанных таблицах представлены лишь данные с 1 по 6 семестры обучения студентов
Не все данные соответствуют друг другу 1:1, например данных об обучении студентов заведомо больше, чем есть данных в оценках, поскольку цель задания - предсказать по этим данным долги за указанный период. Информация по дисциплинам может быть избыточной.
Таблица comp_students.csv ~11000 строк
- ISU - UID студента
- COURSE - курс обучения, которому соответствует запись
- DATE_START - начало периода обучения
- DATE_END - конец периода обучения
- PRIZNAK - состояние на конец периода обучения (обучен, академ, отчислен)
- MAIN_PLAN - образовательный план в данный промежуток времени
Таблица comp_portrait.csv ~ 5000 строк
- ISU - UID студента
- GENDER - пол
- CITIZENSHIP - гражданство
- EXAM_TYPE - форма зачисления (ЕГЭ, олимпиада, ВИ - вступительные испытания)
- EXAM_SUBJECT_1 - первый экзамен ЕГЭ
- EXAM_SUBJECT_2 - второй экзамен ЕГЭ
- EXAM_SUBJECT_3 - третий экзамен ЕГЭ
- ADMITTED_EXAM_1 - баллы за 1 экзамен ЕГЭ
- ADMITTED_EXAM_2 - баллы за 2 экзамен ЕГЭ
- ADMITTED_EXAM_3 - баллы за 3 экзамен ЕГЭ
- ADMITTED_SUBJECT_PRIZE_LEVEL - уровень олимпиады (если есть)
- REGION_ID - номер региона
Таблица comp_marks.csv
- ISU - UID студента
- ST_YEAR - год начала курса (первое число из формата 2020/2021)
- SEMESTER - фактический семестр, в котором получена оценка
- TYPE_NAME - форма отчетности
- MARK - оценка (или зачет/незачет)
- MAIN_PLAN - учебный план
- DISC_ID - UID дисциплины
- PRED_ID - UID преподавателя
Таблица comp_disc.csv
- PLAN_ID - UID учебного плана (то же что и MAIN_PLAN - значения в этих колонках соответствуют друг другу и могут быть использованы для сопоставления таблиц)
- DISC_ID - UID дисциплины
- СHOICE - выборность дисциплины
- SEMESTER - семестр проведения дисциплины в данном учебном плане
- DISC_NAME - название дисциплины
- DISC_DEP - факультет-реализатор дисциплины
Таблица train.csv
Таргет для обучения с оценками и количеством долгов студентов за 2017 - 2020 учебные годы (без 2021/2022 года)
- ISU - UID студента
- SEMESTER - семестр получения оценки
- DISC_ID - UID дисциплины
- DEBT - факт наличия долга (0 - отсутствие, 1 - наличие) - таргет
Таблица comp_teachers.csv
- ISU - UID преподавателя
- GENDER - Пол
- DATE_BIRTH - Год рождения преподавателя
- ST_YEAR - год обучения
- SEMESTER - семестр преподавания
- DISC_ID - UID преподаваемой дисциплины
- MAIN_PLAN - UID учебного плана данной программы
- TYPE_NAME - форма контроля по предмету (экзамен, зачет, дифференцированный зачет)
- MARK - средняя оценка, выставленная преподавателем
Таблица test.csv
Данные для теста - оценки и долги студентов за осенний семестр 2021/2022 года
- ISU - UID студента
- ST_YEAR - учебный год получения оценки
- SEMESTER - семестр получения оценки
- DISC_ID - UID дисциплины
- TYPE_NAME - форма отчетности
Файл с решением sample_submission.csv
- ID - id с информацией о студенте и предмете
data_test['ID'] = data_test[['ISU', 'ST_YEAR', 'DISC_ID', 'SEMESTER', 'TYPE_NAME']].apply( lambda x: f'ISU:{x[0]} | ST_YEAR:{x[1]} | DISC_ID:{x[2]} | SEMESTER:{x[3]} | TYPE_NAME:{x[4]}', axis =1)
- DEBT - предсказание наличия долга (0 - отсутствие, 1 - наличие)
Формирование решения смотрите в baseline.ipynb