[DL輪読会]Assessing Game Balance with AlphaZero: Exploring Alternative Rule Sets in Chess

>100 Views

September 30, 20

deep learning

スライド概要

2020/09/25
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 25.9K

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 22K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 13.4K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 12.5K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 12.4K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 10.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Assessing Game Balance with AlphaZero: Exploring Alternative Rule Sets in Chess Shota Imai（Matsuo Lab）えるエル@ImAI_Eruel DL輪読会2020/09/25 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 ◼出典： https://arxiv.org/abs/2009.04374 ◼著者： Nenad Tomašev, Ulrich Paquet, Demis Hassabis（DeepMind）, Vladimir Kramnik（チェスの元ワールドチャンピオン）

https://arxiv.org/abs/2009.04374

論文概要 3 ◼現代のチェスは，戦略の大半はゲームが始まる前に分析によって練られたもので占められており，引き分けも極めて多い ◼チェスは長い年月をかけてルールが少しずつ変わってきたが，妥当なルールの変更には人間のプレイによるゲーム性の評価が不可欠で，現行ルールのチェスを突然変えるのは不可能 ◼本論文では一部ルールを変更したチェスの改変版で学習したAlphaZero モデルの自己対戦によって，そのルールにおけるゲームバランスを評価 Shota Imai | The University of Tokyo

今日の発表について 4 ◼一応AlphaZero使っているので強化学習とか木探索の話が出てきますが，ほとんど機械学習の専門知識なしでも聞ける内容 ◼一応チェスの基本的な知識を必要とするので，序盤で解説します ◼本発表で使用する図は，論文中，または日本チェス協会や後身のNCSのものを引用しています ◼（強化学習の基礎自体に不安があるなら拙作で恐縮ですが深層強化学習サマースクールで使った以下の資料を勧めておきます）強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 発表の内容のほとんどがチェスの話です Shota Imai | The University of Tokyo

https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning

目次 5 ◼チェスの基礎知識 ◼AlphaZeroと関連手法 ◼論文の内容 Shota Imai | The University of Tokyo

チェスの基礎知識 Shota Imai | The University of Tokyo 6

チェス入門 / 基本的なルール ◼白黒二つの陣営に分かれ，各プレイヤーが交互に自分の駒をルールに則って動かし，相手のキングを先にチェックメイト（どのように動いても次の手でキングを取られる状態）した方が勝利 ◼ゲームのルール上，その後の展開でどのように動いても両者ともチェックメイトができない展開になった場合は引き分け ◼基本的な部分は将棋と似ているが後述のようにいくつか重要な違いがある Shota Imai | The University of Tokyo 7

チェス入門 / チェスの盤面と駒ポーンルークナイトビショップクイーンキング Shota Imai | The University of Tokyo 8

チェス入門 / チェック，チェックメイト，ステイルメイト ◼チェック - 次の一手で何らかの駒の動きで相手のキングを取れるようになっている状況（将棋での王手） - キングにチェックをかけられた側は必ずチェックを回避するような手を打つ必要がある ◼チェックメイト - チェックをかけられ，チェックを回避する手段がなく，どのような手を打っても次の一手でキングが取られる状況 - 単にメイトとも ◼ステイルメイト - 自分の手番であり，チェックはされておらず，合法手が存在しないという条件を満たした場合「ステイルメイト」となり，ゲームは引き分けになる Shota Imai | The University of Tokyo 9

10.

チェス入門 / キング，クイーン ◼ キング - ◼ クイーン全八方向全てに１マス動ける将棋の王将と同じどのような手を打ってもこのキングが取られるチェックメイトになると負け - 左右，斜め方向の空きマスに無制限の移動ができるルーク+ビショップ（将棋だと飛車+ 角）の性能を持つ最強の駒 Shota Imai | The University of Tokyo 10

11.

チェス入門 / ビショップ，ルーク ◼ ビショップ - ◼ ルーク斜め方向の空きマスに無制限の移動が可能将棋の角と同じ - 上下左右方向の空きマスに無制限の移動が可能将棋の飛車と同じ Shota Imai | The University of Tokyo 11

12.

チェス入門 / ナイト，ポーン ◼ ナイト - ◼ ポーン上下左右それぞれ２マス進んだ場所から１マス分だけ横の場所に動ける中間にある駒は飛び越えられる将棋の桂馬を八方向に動かせるようにしたもの - 平時は正面１マスのみ移動できる駒ゲーム開始地点からは2マス移動可正面に他の駒があるときは移動できないが，斜め前に相手の駒があるときには取って移動できる相手側の最上（下）段マスに到達すればポーン以外の任意の駒に昇格（プロモーション）する Shota Imai | The University of Tokyo 12

13.

特殊なルール 13 ◼ キャスリング - - ◼ アンパッサンゲーム開始から動いていないキングとルークがあり，間に他の駒がなく，チェックメイトもされていない場合に可能な動きキングがルークの方向に2マス移動し，ルークはキングを飛び越えて反対側のマスに移動するこの一連の動きを一手で可能 - ルークが正面に２マス動いた場合に可能な手相手のルークは2マス動いたルークが本来1マス動いた時にいる位置に向かって斜め方向に動いて，そのルークをとることができる Shota Imai | The University of Tokyo

14.

勝敗に関連する事項 ◼50手ルール：50手連続でお互いにポーンが動かず，駒が取られることがない場合，プレイヤーの申請により引き分けになる ◼スリーフォールド・レピティション：同じ形の曲面がゲーム中に出現することになる場合，プレイヤーの指摘で引き分けとなる Shota Imai | The University of Tokyo 14

15.

その他チェスの重要用語 ◼マテリアル：駒の価値からどれくらい自軍が有利かを示す指標 ◼オープニング：ゲームの序盤．大量の定跡が存在 ◼ミドルゲーム：ゲームの中盤 ◼エンドゲーム：ゲームの後半 ◼ファイル，ランク - ファイル：チェスボードの縦列 - ランク：チェスボードの横列 Shota Imai | The University of Tokyo 15

16.

チェスAIに関連した話題 ◼チェスにおけるAIと人間の戦いは1997年にはほぼ決着がついており，当時の世界チャンピオンのガルリ・カスパロフがIBMのDeep Blueに敗れている ◼AlphaZeroは2017年当時最強のチェスAIだったStockfishと対戦して，白番（先手）で25勝25引き分け0敗，黒番で3勝47引き分け0敗 ◼上記のように，純粋な勝敗を求めるチェスAIの研究はほとんど尽くされているといっていい状況（そして，理想的な対局ではチェスが引き分けという消極的な結果に終わりやすいことを示している） ◼今回の研究は人間との共同作業でチェスそのものの性質のあり方を考察する新たな取り組み Shota Imai | The University of Tokyo 16

17.

AlphaZeroと関連手法 Shota Imai | The University of Tokyo 17

18.

囲碁の世界最強棋士に勝つ歴史的快挙を成し遂げた囲碁AI AlphaGo ◼ 2016年，DeepMindにより開発され，世界最強棋士とされるイ・セドル九段を破った ◼ 従来のモンテカルロ木探索，強化学習のアルゴリズムを使った囲碁AIのアルゴリズムに，深層学習を巧みに組み合わせ，飛躍的に棋力が上昇 ◼ 従来のモンテカルロ木探索をベースに，盤面から勝率を出力するCNN（バリューネットワーク），人間の棋譜で学習したCNN（SLポリシーネットワーク），そのネットワークを元に強化学習したRLポリシーネットワークを組み合わせて探索の質を上げている Shota Imai | The University of Tokyo 18

19.

モンテカルロ法 ◼囲碁や将棋などで，現在の局面からどの手を打つのが良いかを，ランダムシミュレーションを使って計算する手法 ◼コンピュータの計算力に任せ，合法手を選択して終局まで適当に打つシミュレーション（プレイアウト）を複数回繰り返す - ある手は勝率が低い（100回適当にシミュレーションしてみて20回しか勝てなかった） →その打ち手による遷移先があまりよくない - 別の手は勝率が高い（100回適当にシミュレーションしてみて90回勝った） →その打ち手による遷移先がよい ◼つまり，なんとなくいろんな手を複数回シミュレーションしてみて，勝率が高い手が一番良い打ち手として採用する手法 →モンテカルロ法，原始モンテカルロ木探索 Shota Imai | The University of Tokyo 19

20.

モンテカルロ木探索（Monte Carlo Tree Search; MCTS） ◼原始モンテカルロ木探索では，乱数シミュレーションを行うため，現実的には相手がミスをしなければ勝ちに繋がらないような手も選択してしまう可能性 ◼そこで，有力な手に探索を集中させ，良さそうな手についてはゲーム木を展開して何手も先読みするという手を使うことが考えられる →モンテカルロ木探索の成立 ◼一般的には2006年にレミ・クーロンが開発した囲碁AI「Crazy Stone」が起源とされる AlphaGo等，後続のゲームAIはこのMCTSをベースにしているものが多い（強化学習はあくまでも補助） Shota Imai | The University of Tokyo 20

21.

AlphaGoの構成要素 ◼ロールアウトポリシー - モンテカルロ木探索で高速にプレイアウトを行うために高速推論できるモデル使用 ◼SLポリシーネットワーク（Supervised Learning of Policy Network） - 人間の棋譜データによって教師あり学習，盤面を入力したときの出力手がトップ棋士と似るようにしたCNN（畳み込みニューラルネットワーク） - 最終的にトップ棋士の打ち手とネットワークの出力手の一致率は57%に(従来は多くて約 40%) ◼バリューネットワーク - 盤面を入力とし，勝率を出力するように学習したCNN - 従来の囲碁AIにおける評価関数を深層学習の力で作り上げたと言える ◼RLポリシーネットワーク - SLポリシーネットワークを初期値として，自己対戦によって強化学習を行う - 方策学習のアルゴリズムとしてはREINFORCEを使う ◼非同期方策価値モンテカルロ木探索（APV-MCTS) - 従来のモンテカルロ木探索に加え，バリューネットワークやRLポリシーネットワークも利用することで効率的に木探索を行う 21

22.

人間の囲碁のデータを一切使わずAlphaGo超え AlphaGo Zero ◼ AlphaGoを改良し，人間の棋譜データをまったく使わず，囲碁でAlphaGo同等以上の強さとなった囲碁AI ◼ 人間の知識を一切使用しないため最初の打ち方はデタラメだが，自己対戦で強化学習を行うと，人間では想像できない手も打てるように ◼ AlphaGoの改良系との主な違いは以下 - バリューネットとポリシーネットを統合し（デュアルネットワーク），ResNet 使用 - 木探索でプレイアウトを行わず，デュアルネットの評価値のみを探索の参考にする - 自己対戦は現時点の最強モデルを相手に行ってパラメータを更新 Shota Imai | The University of Tokyo 22

23.

囲碁，将棋，チェスの全てで頂点を極めた汎用ゲームAI AlphaZero ◼ AlphaGo Zeroをさらに改良し，チェスや将棋などのゲームにも適用可能にした ◼ 先代AlphaGo Zero，当時世界最強のチェスAIだった“Stockfish”，2017年世界コンピュータ将棋選手権で優勝した将棋AI “elmo”に対し全て勝ち越し ◼ アルゴリズムは非常に簡潔で，AlphaGo Zeroとの違いとして， - 将棋やチェスは単なる勝敗以外の結果があるため，勝率予測ではなく期待収益予測を行う - AlphaGo Zeroでは過去のモデルのプールから最も強いものを選択して自己対戦に使っていたが，AlphaZeroでは単純に最新モデルのみで自己対戦を行う Shota Imai | The University of Tokyo 23

24.

論文の内容 Shota Imai | The University of Tokyo 24

25.

今回評価するルール ◼本論文では，右図のようにルールを変更した9つの改変版について検討する ◼基本的にはチェスのオリジナルルールに忠実だが，有効な戦略は大きく違う例：ポーンが横にも動ける，自分の駒を取れる，ステイルメイトが勝ちになる等 ◼なお，これらのルール変更はこの論文オリジナルのものというわけではない Shota Imai | The University of Tokyo 25

26.

検討する改変版チェスの例 Shota Imai | The University of Tokyo 26

27.

各改変版チェスの評価の流れ 1. 各ルールに対してAlphaZeroのモデルを自己対戦によって学習 2. 学習を終えたモデル同士で，各ルールで対戦させる 3. 対局中の局面の評価値，勝敗の分布，出現した戦略をもとに，各ルールの性質の評価を行う Shota Imai | The University of Tokyo 27

28.

AlphaZeroモデルの学習 ◼各ルールで，AlphaZeroのモデルを自己対戦によって学習 ◼各モデルのハイパーパラメータは同じものを使い，バッチサイズは4096，学習のステップ数は100万，1手に選択に伴うMCTSのシミュレーションは 800回 ◼学習時には探索の多様性を出すため，以下の工夫を行う - モデルが出力する打ち手の確率にノイズを与える - 各対局の最初の30手はMCTSの訪問回数に基づいたソフトマックス出力によって確率的に選択し，残りは訪問回数トップの手を決定論的に選ぶ Shota Imai | The University of Tokyo 28

29.

各ルールの評価 ◼学習済みモデルを用いて，それぞれのルールについて学習を行う ◼本論文では特に以下の要素に注目する - 対局のドロー率初手（白番）のアドバンテージ各ルールが様々なオープニングの勝敗に与える影響追加されたルールで可能になった打ち手の有用性ゲームの多様性変更されたルールによる駒の推定価値の変動各ルールのチェスの定性評価（by 世界チャンピオン） ◼評価する自己対戦のセットとして，1手の推論時間が1秒のものを10000 セット，1分のものを1000セット用意 ◼チェスの場合，探索が一定以上深くなると，大体固定された手を打つようになってしまうので，評価時にも最初の20手は出力のソフトマックスをとって確率的に選択 Shota Imai | The University of Tokyo 29

30.

自己対戦による評価の結果 ◼左は1手1秒，右は1手１分の自己対戦の結果 ◼ほとんど引き分けになるが，ルール変更によってある程度分布に変化が生じている Shota Imai | The University of Tokyo 30

31.

改変版チェスの分析 / ドロー率の計算 ◼オリジナルのチェスは理想的な展開になった場合，引き分けになるであろうとの仮説があり，実際，現代のチェスは引き分けがかなり多い ◼各ルールについて，対局結果から，相対的にどの程度引き分けになりやすいか計算 ◼下図は行のルールに対して列のルールの方がどれくらいドローしやすいか =決着のつきにくさを示している ◼Torpedoが一番決着しやすい Shota Imai | The University of Tokyo 左：対局数1000 右：対局数10000 31

32.

改変版チェスの分析 / 白番（先行）の有利さ ◼各ルール，白番（先行）の場合にどれだけ有利か（勝ち，または少なくとも引き分けに持ち込めるか）を対局結果から計算して相対的に比較 ◼下図は列のルールに対して行のルールの方がどれだけ白にとって有利かを示している ◼Torpedoが一番白にアドバンテージがある =決着がつきやすいゲームルールは先行有利になりやすい Shota Imai | The University of Tokyo 左：対局数1000 右：対局数10000 32

33.

改変版チェスの分析各ルールの様々なオープニングが勝敗に与える影響 ◼各ルールで，一般的なオープニングの展開になった場合，勝敗にどれだけ影響があるか（先手がどれだけ勝ちやすくなるか）を分析 ◼ここでは，ダッチ・ディフェンス，チゴリン・ディフェンス，アレヒン・ディフェンス，キングズ・ギャンビットについて分析 ◼大体のルール変更では，ある程度の影響はあるものの極端に勝敗に影響することはないが，一部（Pawn sidewaysにおけるチゴリン・ディフェンス）などは極端に先行有利となる Shota Imai | The University of Tokyo 33

34.

改変版チェスの分析 / ルール変更で追加された手の使用について各ルールで追加された新たなチェスの駒の動きを，AlphaZeroがどれだけ好んで使用するか=どれだけ有効な打ち手になりうるかを分析 ◼Torpedo moves - Semi-torpedoでは88%の対局がtorpedoを使用 - torpedoルールでは94%の対局がtorpedoを使用 - プロモーションが早くなるので，当然といえば当然の結果 ◼ポーンの後方移動と横移動 - Pawn-back chessでは96.3%の対局が後方移動を使用 - Pawn-sideways chessでは99.6%の対局が横移動を使用 - 特に横移動は，ゲーム内の全ての打ち手の11.6%を占めた ◼自軍の駒を取る - 52.5%の対局で自軍の駒を取る打ち手が発生した - 86.9%は自軍のポーンを取る動き（大きな移動ができる駒の進路を空けている） Shota Imai | The University of Tokyo 34

35.

改変版チェスの分析 /ゲームの多様性 35 ◼各ゲームの序盤について，AlphaZeroが出力する現在の状態からの移動確率からエントロピーHを計算して，どの程度打ち手に多様性があるかみる ◼エントロピーが0に近ければ，最前手がほとんど1つに絞られて，固定化された打ち手の選択肢しかない=多様性が低いことを示しており，エントロピーが高ければ，様々な打ち手の候補が存在し多様性が高い TorpedoやNo-castlingのように決着がつきやすいゲームは，多様性が低い =決着のつきやすさと多様性のトレードオフ Shota Imai | The University of Tokyo

36.

改変版チェスの分析 /マテリアル ◼ポーンの価値を1とした場合の各駒の価値が各ルールでどのようになるか分析 ◼各駒の相手の個数との差分をとった特徴ベクトルに重みをかける評価関数を作成し，重みの大きさから駒の重要度を算出 - 特徴ベクトル - 評価関数 - 損失関数（z:実際の勝敗） Shota Imai | The University of Tokyo 36

37.

改変版チェスの分析 /定性評価 ◼チェスのグランドマスターが各ルールの棋譜から打ち手の主観的評価を行う ◼人間のプレイヤーの経験に基づく美的感覚，プレーして面白さを感じるかどうか，人間のプレーと比べた場合に展開がどの程度違ったものになるかをみている Shota Imai | The University of Tokyo 37

38.

定性評価 1/2 38 ◼ No Castling chess - キングを守るための複雑性が増し，守りよりも攻撃的になりがち - なかなか面白いルール ◼ No Castling（10） - あまり魅力がないルール - 結局どれだけキャスリングが制限されてもキャスリング自体が極力な手であるため，キャスリングをする固定化された戦略になりがち ◼ Pawn one square chess - ポーンの動きが遅いので，ゲーム展開も非常にゆっくりしたものになる - ゆっくりとゲームを楽しみたい人向け ◼ Stalemate=win chess - 高レベルプレイヤー同士のゲームでは，ステイルメイトが引き分けの決定打にはあまりならない - よってこのルール変更が与える影響は小さく微妙 ◼ Torpedo, Semi-torpedo chess - ダイナミックで攻撃的なチェスになる - 各局面で従来のチェスにはない選択肢が生まれやすい（が，その選択肢が最重要で多様性は小さい） Shota Imai | The University of Tokyo

39.

定性評価 2/2 39 ◼Pawn-back chess - ポーンを後方に移動させるのは，どちらかというと弱い場所の補強に使うと思いそうだが，実際には後方に下がって攻撃の進路を開けたりと意外と攻撃的 - AlphaZeroがある一部のオープニングを強く好むようになった ◼Pawn-sideways chess - かなり複雑なプレイが要求されるようになり，従来のチェスに慣れている人にとっては難しい - 従来のチェスではあり得ない戦術が多い ◼Self-capture chess - 一番美的で面白いルール - ゲームのあらゆる局面で自分の駒を取ることことが選択肢に入り，様々な戦略を考えることができる Shota Imai | The University of Tokyo

40.

まとめ 40 ◼人の棋譜を使わず最強クラスのプレイヤーを超える強さになるAlphaZero を工夫して使うことで，ゲームルールを改変した場合にも機械的にルールの性質評価を行うことができた ◼特にTorpedo chess, Semi-torpedo chess, No-castling chess Stalemate=winのルールは現在のチェスよりも勝敗が決しやすい（が同時に正確なプレーが要求され，特に序盤は展開が固定化されやすい） ◼今回はゲーム戦略の発展が行き詰まりがちだったチェスのみの評価だったが，将棋や囲碁，その他のゲームでも同様にゲームルールの変更，妥当性の評価，バランス調整を行える可能性がある Shota Imai | The University of Tokyo