Ends in 1 week
8 participants

DRL Course Домашнее задание 3

Задания по третьей лекции и третьему практическому занятию

Задания

После лекции 3 и практического занятия 3 требуется выполнить три домашних задания:

  1. В алгоритме Policy Iteration важным гиперпараметром является gamma. Требуется ответить на вопрос, какой gamma лучше выбирать. Качество обученной политики можно оценивать например запуская среду 1000 раз и взяв после этого средний total_reward. 
  2. На шаге Policy Evaluation мы каждый раз начинаем с нулевых values. А что будет если вместо этого начинать с values обученных на предыдущем шаге? Будет ли алгоритм работать? Если да, то будет ли он работать лучше? 
  3. Написать Value Iteriation. Исследовать гиперпараметры (в том числе gamma). Cравнить с Policy Iteration. Поскольку в Policy Iteration есть еще внутренний цикл, то адекватным сравнением алгоритмов будет не графики их результативности относительно внешнего цикла, а графики относительно, например, количества обращения к среде. 

Оформление

Код каждого задания следует выполнить в отдельном .py файле с названием "(фамилия)_practice3_(номер задания).py". Результаты всех исследований по заданиям 1-3 следует оформить в отчет в виде одного .pdf файла с названием "(фамилия)_practice3.pdf". Отчеты оформляются в произвольной форме, однако должны содержать  

  • оглавление,
  • описание экспериментов,
  • результаты экспериментов проиллюстрированные в виде графиков обучения (ось x - количество итераций обучения, ось y - результаты обучения),
  • вывод.

Все файлы кладутся в папку с названием "(фамилия)_practice3" и предоставляется возможность скачать эту папке по ссылке (google.drive, yandex.disk и пр.). Задания отправляются в форме ниже в формате:

Фамилия Имя Отчество

Домашняя работа 3 - (ссылка на папку (фамилия)_practice3)

Оценка

Выполнение заданий оценивается в 10 баллов - 5 баллов на правильность выполнения и 5 за качество оформление отчета.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.