Цель этого домашнего задания настроить CI-CD пайплайн и опубликовать на gitlab pages документацию проекта и исследований. пайплан должен включать в себя:
- DinD – сборку вашего докер образа из предыдущего дз, стоит также опубликовать образ в вашем gitlab docker registry.
- Линтеринг кода с использованием выбранных линтеров и форматеров
- Сборка и публикация вашего проекта в виде пакета в gitlab pypi registry.
- Сборка исследования из quarto/jupyter, документации в html (возможно надо будет скачать данные с помощью kaggle-cli)
- Публикация на gitlab pages
Помните, что в ci-cd различные credentials надо задавать как секреты – masked variables.
Проведите разведочный анализ на датасет ny-2015-street-tree-census-tree-data. В исследование стоит отобразить следующее:
- Показать при помощи таблиц превью данных.
- Продемонстрировать при помощи таблиц или графиков объем пропущенных значений в данных. Например, можно для столбцов, где есть пропуски, построить pie chart с указанием процента пропусков (есть в plotly).
- Построить диаграммы попарного распределения признаков.
- Рассчитать и показать матрицу попарных корреляций между вещественными признаками.
- Отобразить географическое представление деревьев из датасета. В датасете есть поля: latitude и longitude, и, используя библиотеки, которые позволяют отображать положение объектов на карте при помощи широты и долготы, необходимо предоставить в отчете карту расположения деревьев из данных.
Не забудьте зафиксировать ваши наблюдения и выводы полученные в ходе исследования, что интересного вы заметили и как вы это интерпретировали.
Результатом домашнего задания будет ссылка на открытый репозиторий и ссылка на gitlab pages.