Articles / január 17, 2022

RL – DQN Deep Q-network

A számítógépek tudnak úgy játszani videojátékokkal, mint az emberek? 2015-ben a DQN számos Atari-játékban legyőzte az emberi szakértőket. De ha egyszer összetett háborús stratégiai játékokra kerül sor, az AI nem teljesít jól. 2017-ben egy profi csapat könnyedén legyőzte a DeepMind AI programját a Starcraft 2-ben.

A DeepMind tanulmányából idézve:

Ez egy multiágens probléma több játékos interakciójával; tökéletlen információval rendelkezik a részben megfigyelt térkép miatt; nagy akciótérrel rendelkezik, amely több száz egység kiválasztását és irányítását foglalja magában; nagy állapottérrel rendelkezik, amelyet kizárólag nyers bemeneti jellemzősíkok alapján kell megfigyelni; és késleltetett kreditkiosztással rendelkezik, amely több ezer lépés hosszú távú stratégiát igényel.

Kezdjük újra az utazásunkat vissza a Deep Q-Network DQN-hez. Az alábbi Seaquest játékban a DQN a nyers képekből magától megtanulja, hogyan olvassa a pontszámokat, hogyan lője le az ellenséget, és hogyan mentse ki a búvárokat. Olyan ismereteket is felfedez, amelyeket stratégiának nevezhetünk, például, hogy mikor kell a tengeralattjárót oxigénért a felszínre hozni.

A Q-learning megtanulja a Q(s, a) akcióérték-függvényt: hogy egy adott állapotban mennyire jó egy akciót végrehajtani. Például az alábbi táblaállás esetében, hogy mennyire jó a gyalogot két lépést előre lépni. Szó szerint egy skalárértéket rendelünk az ilyen lépés megtételének hasznához.

Q-t akcióérték-függvénynek (vagy ebben a cikkben Q-érték-függvénynek) nevezzük.

A Q-tanulásban egy Q memóriatáblát építünk, amelyben az s és a összes lehetséges kombinációjának Q-értékét tároljuk. Ha sakkozó vagy, ez a legjobb lépés puskája. A fenti példában rájöhetünk, hogy a 2 lépéssel előrébb lépő gyalog mozgatása a legmagasabb Q-értékkel rendelkezik az összes többihez képest. (A memóriafogyasztás túl nagy lesz a sakkjátszma számára. De maradjunk még egy kicsit ennél a megközelítésnél.)

Technikai értelemben az aktuális állapotból mintavételezünk egy akciót. Megtudjuk a jutalmat R (ha van) és az új s’ állapotot (az új táblaállást). A memóriatáblából meghatározzuk a következő a’ akciót, amelyik a maximális Q(s’, a’).

Egy videojátékban az ellenség lelövésével pontokat (jutalmat) szerzünk. Egy sakkjátékban a jutalom +1, ha nyerünk, vagy -1, ha veszítünk. Tehát csak egy jutalom van megadva, és annak megszerzéséhez időre van szükség.

A Q-tanulás arról szól, hogy létrehozzuk a Q puskát.

Universe

RL – DQN Deep Q-network

Megoldások

Implementációs részletek

Architektúra

A DQN javításai

Még több gondolat

Leave a Reply Cancel