2017/07/07
0:00

マイクロソフトが強化学習で「ミズ・パックマン」をカンスト AIニュース#003



みなさんこんにちは。
人工知能ラボの助手です。

今日は、マイクロソフト社の作成した人工知能がアクションゲームの
ミズ・パックマン」で、得点をカウントストップ(999,990点)させた
ニュースを紹介したいと思います。



「ミズ・パックマン」は、迷路内にいるゴースト(敵)から逃げつつ、
配置されているフルーツを食べていくゲームです。
また、ゴーストの動きにランダム性があったり、フルーツも
迷路内を移動するなど、通常の「パックマン」に比べて難易度が
格段に上がっているもののようです。

これに対して同社は、「フルーツを取りに行く」、「敵から逃げる」
などの単目的に対する150種類以上のエージェントと、それらの
エージェントの結果をもとに、総合的な判断を下すトップエージェント
で構成されるAIを作成したようです。

たとえば、フルーツを取りに行きたいAIが左に進むと判断しても、
敵から逃げるAIが、左には敵がいるので右に進むと判断した場合は、
トップエージェントは右に進むという判断を下すようです。
(150以上のAIとあるので、実際にはもっと複雑な
判断がなされているのかもしれません)


また、この人工知能に使用されているのは、強化学習という
アルゴリズムです。
このアルゴリズムは、ディープラーニングなどに使用されている
「教師あり学習」とは違い、最初に正解データが与えられません。
AI自らが試行錯誤を行い、その時の行動結果(報酬)に基づいて、
状況に応じた最適な行動を学習していきます。

そのため、学習には非常には時間がかかるのですが、
今回の「ミズ・パックマン」の例のように、高度なアルゴリズムで
学習をしきったAIは、人間をゆうに超えてしまうこともあります。


ちなみに、私も強化学習のアルゴリズムを使用した
AIを作製したことがあります。
PONGという、来た球を打ち返すシンプルなゲームで作成したのですが、
それでも強いエージェントを作るのにはかなりの時間がかかりました。

いかに、今回のマイクロソフト社のAIが凄いかが分かります…

このAIが「ミズ・パックマン」をプレイする動画も公開されている
ようなので、皆さんもぜひ見てみてください!


それでは今回はここまでにしましょう。
お疲れ様でした!