コンピュータ将棋・囲碁の最新動向とモンテカルロ法、そして遺伝的アルゴリズム

電子情報通信学会東京支部の講演会、コンピュータ将棋・囲碁の最新動向 が9月11日にありましたので聞いてきました。

将棋は既にアマ6段以上とされ、全幅探索、局面評価の自動学習で、近年大きな成果を上げてきているそうです。お話のあった、Bonnanza GPS将棋の両方が、ソースコードとともに公開されているそうです。
GPSshogi – PukiWiki
Bonanza – The Computer Shogi Program
すごいですね。もう普通の人ではかなわないレベルでした。

囲碁については、まだアマ初段程度だそうです。中々進歩してなかったんだそうです。モンテカルロシミュレーションを導入するというアイデア(ランダムに打ち続けたとして、勝率が多い手により多くの回数を割り当て、勝率最大化を狙うという、Monte Carlo Tree Search)が2005年に出てきて、Multi Armed Bandit 問題(スロットマシンが複数あるとき、どのマシンを選ぶと有利か)の戦略の一つであるUpper Confidence Bound(UCB)戦略をTreeに応用したUCT(UCB applied to Trees)が提案された。有望なマシンにたくさんコインを投入しようという戦略を応用して、有望なツリーを成長させるもので、これが一挙に2006年に花開いた。その後、日本人が開発したZenというプログラムはアマ三段以上とされ、9月18日に天頂の囲碁という商品で発売される。MYCOM GAME WEB 天頂の囲碁オンライン販売価格(税込) 10,752円

特に囲碁の関係では、中々興味深いお話を聞けました。
モンテカルロ法は、昔懐かしい話ではありますね。でこれらの応用として、成功したアルゴリズムなんだそうですが、私はつい、遺伝的アルゴリズムのことを連想してしまいます。どちらも、何で有効なアルゴリズムなのか、分からないところがあるんだけれども、強力なんです。
まあ大きな違いは、遺伝的アルゴリズムでは(多分、相手にする問題は、特定の答えがどこかに既にあって、その)最適な一つを見つけるのが目的で、それが早く見つかればいい。
モンテカルロなんとかでは、今から打つ手を選ぶ話だから、本当の答えはまだ定まっていないかもしれないんですね。でも、最適に近づくようにその周りに手を打っていくというやり方は遺伝的アルゴリズムの考え方に似ています。そのうち、誰かが、これは一緒だったよ、と言い出しても不思議ではないかもね。

カテゴリー: アイデア, 情報メモ, 日記 パーマリンク

コメントを残す