Ended 3 weeks ago
89 participants
47 submissions

DRL Course Домашнее задание 1

Задания по первой лекции и первому практическому занятию

Отправка решений до 13.11.2022 23:59 (мск)

Задания

После лекции 1 и практического занятия 1 требуется выполнить три домашних задания:

  1. Пользуясь алгоритмом Кросс-Энтропии обучить агента решать задачу Taxi-v3 из Gym. Исследовать гиперпараметры алгоритма и выбрать лучшие.
  2. Реализовать алгоритм Кросс-Энтропии с двумя типами сглаживания,  указанными в лекции 1. При выбранные в пункте 1 гиперпараметров сравнить их результаты с результатами алгоритма без сглаживания.
  3. Реализовать модификацию алгоритм Кросс-Энтропии для стохастических сред, указанную в лекции 1. Сравнить ее результат с алгоритмами из пунктов 1 и 2.

Оформление

Код каждого задания следует выполнить в отдельном .py файле с названием "(фамилия)_practice1_(номер задания).py". Результаты всех исследований по заданиям 1-3 следует оформить в отчет в виде одного .pdf файла с названием "(фамилия)_practice1.pdf". Отчеты оформляются в произвольной форме, однако должны содержать  

  • оглавление,
  • описание экспериментов,
  • результаты экспериментов проиллюстрированные в виде графиков обучения (ось x - количество итераций обучения, ось y - результаты обучения),
  • вывод.

Все 4 файла кладутся в папку с названием "(фамилия)_practice1" и предоставляется возможность скачать эту папке по ссылке (google.drive, yandex.disk и пр.). Задания отправляются в форме ниже в формате:

Фамилия Имя Отчество

Домашняя работа 1 - (ссылка на папку (фамилия)_practice1)

Оценка

Выполнение заданий оценивается в 10 баллов - 5 баллов на правильность выполнения и 5 за качество оформление отчета.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.