Ended 6 weeks ago
15 participants
12 submissions

DRL Course Домашнее задание 4

Задания по четвертой лекции и четвертому практическому занятию

Задания

После лекции 4 и практического занятия 4 требуется выполнить три домашних задания:

  1. Реализовать Q-Learning и сравнить его результаты с реализованными ранее алгоритмами: Cross-Entropy, Monte Carlo, SARSA в задаче Taxi-v3. Для сравнения как минимум нужно использовать графики обучения. 
  2. Дискретизировать (можно использовать numpy.round()) пространство состояний и обучить Агента решать CartPole-v1, Acrobot-v1, MountainCar-v0, или LunarLander-v2 (одну на выбор) методами Monte Carlo, SARSA и Q-Learning. Сравнить результаты этих алгоритмов и реализованного ранее алгоритма Deep Cross-Entropy на графиках. 
  3. Придумать стратегию для выбора epsilon позволяющую агенту наилучшим образом решать Taxi-v3 алгоритмом Monte Carlo.

Оформление

Код каждого задания следует выполнить в отдельном .py файле с названием "(фамилия)_practice4_(номер задания).py". Результаты всех исследований по заданиям 1-3 следует оформить в отчет в виде одного .pdf файла с названием "(фамилия)_practice4.pdf". Отчеты оформляются в произвольной форме, однако должны содержать  

  • оглавление,
  • описание экспериментов,
  • результаты экспериментов проиллюстрированные в виде графиков обучения (ось x - количество итераций обучения, ось y - результаты обучения),
  • вывод.

Все файлы кладутся в папку с названием "(фамилия)_practice4" и предоставляется возможность скачать эту папке по ссылке (google.drive, yandex.disk и пр.). Задания отправляются в форме ниже в формате:

Фамилия Имя Отчество

Домашняя работа 4 - (ссылка на папку (фамилия)_practice4)

Оценка

Выполнение заданий оценивается в 10 баллов - 5 баллов на правильность выполнения и 5 за качество оформление отчета.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.