コンピュータが人間のようにビデオゲームをプレイできるのか? 2015年、DQNは多くのアタリゲームで人間の専門家に勝った。 しかし、いったん複雑な戦争戦略ゲームになると、AIはうまくいかない。 2017年、プロチームがスタークラフト2でDeepMindのAIプログラムを簡単に打ち負かした。
Deep Q-Network DQN に戻って、旅を再開しましょう。 下のシークエストゲームでは、DQNはスコアの読み方、敵の撃ち方、ダイバーの救出方法を生映像から独力で学習しています。 また、潜水艦の酸素補給のタイミングなど、戦略として参考になる知識も発見しています。 例えば、下の碁盤の位置に対して、ポーンを2歩先に動かすのがどれだけ良いか、である。 文字通り、そのような行動をとることの利点をスカラー値で表す。
Q学習ではメモリテーブルQを作って、sとaの考えられるすべての組み合わせに対するQ値を格納します。チェスなら最善手のカンニングペーパーとなりますね。 上の例では、2手先のポーンを動かすことが、他のすべてのポーンよりもQ値が高いことに気づくかもしれない。 (チェスではメモリ消費量が多すぎるでしょう。 しかし、このアプローチにもう少しこだわってみましょう。)
専門的に言えば、現在の状態から行動をサンプリングします。 我々は報酬R(もしあれば)と新しい状態s’(新しいボードの位置)を見つける。 メモリテーブルから、最大 Q(s’, a’) を持つ次の行動 a’ を決定する。
ビデオゲームで、敵を撃墜してポイント(報酬)を獲得する。 チェスゲームでは、勝てば+1、負ければ-1の報酬が得られます。 だから与えられる報酬は1つだけで、それを得るには時間がかかる。
Leave a Reply