DRL Course 2023 Домашнее задание 3

Задания по третьей лекции и третьему практическому занятию

Задания

После лекции 3 и практического занятия 3 требуется выполнить три домашних задания:

В алгоритме Policy Iteration важным гиперпараметром является gamma. Требуется ответить на вопрос, какой gamma лучше выбирать. Качество обученной политики можно оценивать например запуская среду 1000 раз и взяв после этого средний total_reward.
На шаге Policy Evaluation мы каждый раз начинаем с нулевых values. А что будет если вместо этого начинать с values обученных на предыдущем шаге? Будет ли алгоритм работать? Если да, то будет ли он работать лучше?
Написать Value Iteriation. Исследовать гиперпараметры (в том числе gamma). Cравнить с Policy Iteration. Поскольку в Policy Iteration есть еще внутренний цикл, то адекватным сравнением алгоритмов будет не графики их результативности относительно внешнего цикла, а графики относительно, например, количества обращения к среде.

Оформление

Код каждого задания следует выполнить в отдельном .py файле с названием "(фамилия)_practice3_(номер задания).py". Результаты всех исследований по заданиям 1-3 следует оформить в отчет в виде одного .pdf файла с названием "(фамилия)_practice3.pdf". Отчеты оформляются в произвольной форме, однако должны содержать

оглавление,
описание экспериментов,
результаты экспериментов проиллюстрированные в виде графиков обучения (ось x - количество итераций обучения, ось y - результаты обучения),
вывод.

Все файлы кладутся в папку с названием "(фамилия)_practice3" и предоставляется возможность скачать эту папке по ссылке (google.drive, yandex.disk и пр.). Задания отправляются в форме ниже в формате:

Фамилия Имя Отчество

Домашняя работа 3 - (ссылка на папку (фамилия)_practice3)

Оценка

Выполнение заданий оценивается в 10 баллов - 5 баллов на правильность выполнения и 5 за качество оформление отчета.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy

Learn More