Comparative analysis of "Deep Q Network" and "PPO" for reinforcement learning in unity
Valiyev, Elnur |
Šiame magistro darbe nagrinėjamas ir lyginamas dviejų populiarių pastiprinimo mokymosi metodų, t. y. Proximal Policy Optimization (PPO) ir Deep Q-Learning (DQN), efektyvumas. Šio darbo tikslas buvo pabandyti pamatyti, kaip du algoritmai veikia tokiomis pačiomis sąlygomis, tad buvo eksperimentuojama su konfigūracijomis, siekiant geriausio našumo. Eksperimentai buvo atliekami “Flappy Bird” žaidimo aplinkoje, naudojant Unity žaidimo variklio mašininio mokymosi priemonių rinkinį ir Python API DQN funkcionalumui. Eksperimentuose buvo tiriami įvairūs hiperparametrai, o pagrindinis tikslas buvo išlaikyti juos kuo vienodesnius, siekiant korektiškiau palyginti. Rezultatai rodo, kad DQN, nors ir nėra tarp standartinių “Unity” priemonių, davė gerokai geresnius rezultatus ir buvo gana atsparus parametrų pokyčiams, o PPO buvo jautrus nedideliems konfigūracijos pokyčiams. Šie rezultatai išryškina stipriąsias ir silpnąsias algoritmų puses bei praktines problemas ir leidžia atlikti teisingą lyginamąją analizę.
This study explores and compares the performance of two popular reinforcement learning, namely Proximal Policy Optimization (PPO) and Deep Q-Learning (DQN). The objective of this paper was mainly to try to see how two algorithms perform under the same condition and this paper does not experiment with configurations for the best performance. The experiments were conducted in the “Flappy Bird” environment using “Unity” game engine’s Machine Learning toolkit and Python API. In all experiments, various hyperparameters were used and the main goal was to keep them as same as possible to have a fair comparison. The results show that even though DQN was not natively supported by Unity, it produced significantly better results and was quite resilient to the parameter changes, whereas PPO was sensitive to small changes in the configuration. These findings highlight the strengths, weaknesses and practical problems of the algorithms and provide a fair comparative analysis.