AlphaZero 人工知能プログラミング実践入門を読んだ（その１）　第５章　探索

AlphaZero 深層学習・強化学習・探索　人工知能プログラミング実践入門
布留川英一著　2019年ボーンデジタル

　仕事が忙しすぎて時間が取れなかったので、年末年始休暇で、以前買ったこの本に取り組もうと思う。

　１章がまえがき、２章がPythonの紹介で、３章が深層学習、４章が強化学習、５章が探索という、AlphaZeroを構築する３つの概念を独立して学ぶ構成となっている。この３つの章は並列の関係にある。最初に載っていたロードマップの図が大変わかりやすい。６章でAlphaZero、７章でユーザーと対戦できるようグラフィカルインタフェースについて学ぶ。

　本書では、GoogleColabという、クラウド上で実行する方法を推奨しているが、アナコンダをインストールしたノートＰＣで、JupyterNotebook上で試すことにした。結論から言えば、問題なく動く模様である。

　５-1ミニマックス法の最初のサンプルプログラムを手打ちで打ってみる。ブログ筆者はＣ言語が染みついているので、インデントによる構造管理に慣れない。また、パワポ作業の癖でShift+Returnを押すと実行されてしまうのにイライラ。

　JupyterNotebookで新しいipynbファイルを作り、テキスト通りに打っていくと問題なく動いた。他の教科書では、その通りにやっても動かない場合もあるので、大変良いと思う。
　５章の最初のプログラムを手打ちして実行すると、自分のタイプミスで止まるのはすぐエラーになって分かったのだが、tabによるインテンドの数が１つ多い場所があり、それで誤動作していたのは見つけるのにとても時間がかかった。ダウンロードしたサンプルプログラムは正常に動いたので、一行一行見比べて、３周目ぐらいで見つけることが出来た。こういう時に悩んでいろいろ考えると、それこそいろいろ身につく。

　逆に、ダウンロードしたサンプルプログラムを実行するのは簡単すぎる。適当にShift+Returnを押しているとそれっぽい結果が打ち出されてくるのだが、その結果を眺めていても、なにも身につかないと思われる。

　実行結果はこんな感じ。本書で言う３目並べは、小学校の頃にやっていたいわゆる○×である。本文と逆で、先手が○でランダム、×が後手で全探索を行い最適解をうつミニマックス法。actionというのが×を置けるところのリストで、左上から横に0、1…8まで、その場所においた時の評価がscoreで、scoreの高いところに置くようになっている。scoreは1か0か-1しかないので、1が複数あったらその中の番号が若いところに置いているのかな（良く分かっていない（^^））
ミニマックス法で後手が考えている時だけ、actionとかが表示される。

--o
---
---

action: 0, 1, 3, 4, 5, 6, 7, 8,
score: -1,-1,-1, 0,-1,-1,-1,-1,

--o
-x-
---

--o
-x-
--o

action: 0, 1, 3, 5, 6, 7,
score: -1,-1,-1, 0,-1,-1,

--o
-xx
--o

-oo
-xx
--o

action: 0, 3, 6, 7,
score: 0, 1,-1,-1,

-oo
xxx
--o

　この手法は総当たりなので強いが、○×程度ならともかく、ちょっと規模が大きいゲームでは実行に時間がかかり過ぎる。５章の後半では、大規模なゲームでも通用するような解の探索方法として、Alpha-Beta法、モンテカルロ法が紹介されている。

　かなり簡単な紹介だが、この本のプログラムはしっかりと動くと思われるので、初心者の勉強にとても良いのではないか。ネットでも、分かりやすいとの評判を良く読む。

　６章のAlphaZero、７章のグラフィックはこの年末年始にクリアしておきたい。７章のPython上で画面描写することを学ぶのが一番の目的だったりする。