Skip to content

Latest commit

 

History

History
31 lines (20 loc) · 1009 Bytes

README.md

File metadata and controls

31 lines (20 loc) · 1009 Bytes

HalfCheetah

Имплементация алгоритмов DDPG и PPO.

Обучение и тестирование в среде Half-Cheetah из MuJoCo.

Статья про PPO, по которой писался алгоритм: https://arxiv.org/pdf/1707.06347.pdf

Запуск

Для запуска обучения алгоритма DDPG:

python3 train_ddpg.py

Для запуска обучения алгоритма PPO:

python3 train_ppo.py

Результат

На данный момент удалось достичь такого результата с помощью алгоритма PPO. Требуется доработка алгоритма и более тщательный подбор гиперпараметров.

walk_face.mp4

Дальнейшее развитие

  • TRPO
  • SAC
  • A3C