DRL Course Домашнее задание 4

Задания по четвертой лекции и четвертому практическому занятию

Задания

После лекции 4 и практического занятия 4 требуется выполнить три домашних задания:

Реализовать Q-Learning и сравнить его результаты с реализованными ранее алгоритмами: Cross-Entropy, Monte Carlo, SARSA в задаче Taxi-v3. Для сравнения как минимум нужно использовать графики обучения.
Дискретизировать (можно использовать numpy.round()) пространство состояний и обучить Агента решать CartPole-v1, Acrobot-v1, MountainCar-v0, или LunarLander-v2 (одну на выбор) методами Monte Carlo, SARSA и Q-Learning. Сравнить результаты этих алгоритмов и реализованного ранее алгоритма Deep Cross-Entropy на графиках.
Придумать стратегию для выбора epsilon позволяющую агенту наилучшим образом решать Taxi-v3 алгоритмом Monte Carlo.

Оформление

Код каждого задания следует выполнить в отдельном .py файле с названием "(фамилия)_practice4_(номер задания).py". Результаты всех исследований по заданиям 1-3 следует оформить в отчет в виде одного .pdf файла с названием "(фамилия)_practice4.pdf". Отчеты оформляются в произвольной форме, однако должны содержать

оглавление,
описание экспериментов,
результаты экспериментов проиллюстрированные в виде графиков обучения (ось x - количество итераций обучения, ось y - результаты обучения),
вывод.

Все файлы кладутся в папку с названием "(фамилия)_practice4" и предоставляется возможность скачать эту папке по ссылке (google.drive, yandex.disk и пр.). Задания отправляются в форме ниже в формате:

Фамилия Имя Отчество

Домашняя работа 4 - (ссылка на папку (фамилия)_practice4)

Оценка

Выполнение заданий оценивается в 10 баллов - 5 баллов на правильность выполнения и 5 за качество оформление отчета.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy

Learn More