【DL輪読会】“From Motor Control to Team Play in Simulated Humanoid Football”

>100 Views

October 01, 21

スライド概要

2021/10/01
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “From Motor Control to Team Play in Simulated Humanoid Football” Presenter: Takahiro Maeda D1 (Toyota Technological Institute, Intelligent Information Media Lab) http://deeplearning.jp/

2.

目次 1. 2. 3. 4. 5. 6. 書誌情報 概要 研究背景 提案手法 実験結果 考察・所感 2

3.

1. 書誌情報 紹介論文 タイトル: From Motor Control to Team Play in Simulated Humanoid Football 出典: Arxiv 著者: Siqi Liu, Guy Lever, Zhe Wang, …, Nicolas Heess. 計24名 所属: DeepMind 選書理由 細かい身体制御から複数人の協調までを同時に行う強化学習に驚いたから ※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文から引用 3

4.

結果 4

5.

2. 概要 • 人型エージェントを用いて,2対2のサッカーを行う強化学習手法を提 案した. • ①モーションキャプチャデータの模倣による関節制御の学習 ②ボールやゴールの位置に応じたドリブルやシュートの個別タスクの 学習 ③試合を通したself-playによるチームプレイの学習 という3段階の強化学習で実現 • ③では徐々にチームプレイ戦略を獲得していることを実験的に示した. • ミリ秒単位の関節制御から数十秒単位のチームプレイまでを同時に実 5

6.

3. 研究背景 • 実人間の行動には様々なレベルがある • 個別のレベルでの従来研究が存在 Unity3D ML-agent toolkit[4] slime volleyball[1] ハイレベル 協力,対戦 個別のタスク,動 作 DeepMimic[3] bipedal walker[2] cartpole[2] ローレベル 関節制御 6

7.

3. 研究背景 • 抽象化なしにローレベルからハイレベルまでを同時に達成したい ハイレベル 協力,対戦 個別のタスク,動 作 ローレベル 関節制御 7

8.

4. 提案手法:前提 • 人型エージェント – 自由度56の剛体関節物体 – 状態s: 内部状態(関節角度,角速度,腰部関節の世界座標角度) 外部状態(他プレーヤー,ボール,ゴールポストの相対座標,相対速 度) タスク情報(後述,②個別タスクの学習でのみ使用) – 行動a: 目標関節角度 → 比例制御器により関節トルクに変換 • 強化学習アルゴリズム: MPO with PBT – MPO ( Maximum a-posteriori Policy Optimization ) by DeepMind • KL正則項の重み(TRPO)やパラメータ更新幅制約 (PPO)の調整が,報酬値スケールに応じ て必要 • KL項をハードな制約に置き換え別個に解くことで,報酬値スケールに依存しない最適化を 8 達成

9.

4. 提案手法:3段階の学習 ①模倣による関節制御の学習 ②個別タスクの学習 ③チームプレイの学 習 9

10.

4. 提案手法:①模倣による関節制御の学習 • モーキャプデータの模倣によりLow-Level Controllerを作成 – 内部状態 (proprio)と動作意図(𝑧𝑡 )を入力に,行動(目標関節角度)を出力 – 細かな関節制御を動作意図(𝑧𝑡 )で抽象化して扱うことができる – この段階の𝑧𝑡 は,模倣動作の特徴量 – 報酬 従来法からの採用 関節角度 重心位置 角速度 端点位置 エージェント 模倣動作 関節角度 – 閾値𝜏以上の関節角度誤差でエピソード終了 10

11.

4. 提案手法:②個別タスクの学習 • 個別タスクを達成する4つのExpert Policyを作成 – 内部状態(proprio),タスク情報(drill),外部状態(context)から動作意図(𝑧𝑡 )を 出力 – 各タスク情報(drill) 目標軌跡 目標軌跡 目標座標 なし – しかし,後段の試合形式ではタスク情報が無いため, このExpert Policyは使えない → distillation 11

12.

4. 提案手法:②個別タスクの学習 • タスク情報から独立した4つのDrill Prior作成 – 内部状態(proprio),外部状態(context)から動作意図(𝑧𝑡 )を出力 – Expert Policyの出力と一致するように𝑧𝑡 間のKL誤差を最適化 12

13.

4. 提案手法:③チームプレイの学習 • Drill Priorを用いて試合形式でチームプレイを学習 – 場面に応じてdrill priorを切り替えるように学習 drill priorに動作意図(𝑧𝑡 )が一致するよう正則化 動作意図のKL正則化 – reward shaping • スコア: 得点時 +1.0 失点時 -1.0 • ボールへの速度:ボールに近い方のプレーヤーへ ボールへ向かう速さに応じて報酬 • ゴールへのボール速度 13

14.

5. 実験結果: Ablation study • 学習中のvalidationとして,別途学習したエージェントとの試合結果 を評価 – 初見の相手との試合を評価することで妥当性担保 勝敗レーティング 提案手法 提案手法 + チームレベル報 酬 • チームレベルの報酬 • 蹴ったボールの チームメイトへの速度 • チームメイト同士の距離 drill priorなし sparse rewardのみ 14

15.

5. 実験結果: 高度なプレイの段階的獲得 • 個人技からチームプレイへの段階的獲得が観測された – 個人技: 起き上がり,走る速度 – チームプレイ: パスの頻度,長さ,パス待ち位置の高度化 片方のプレーヤーのみが ボールを保有している割 合 =パス待ちができている か Off-ball scoring opportunity ( OBSO ) パス待ちの位置取り評価尺 度 15

16.

5. 実験結果: 試合の一部 16

17.

5. 実験結果: 観測されたエージェント行動 切り返 し ロングパ ス 体全体 で ブロッ ク 膝での パスキャッ チ プッ シュ ボールの 囲い込み 17

18.

考察・所感 • 細かい身体制御しながら高度なチームプレイを行えるのはすごい モーキャプデータの模倣による関節制御の抽象化が1つの鍵 将来的には,将棋のようにシミュレータで新しい戦術開発を行えるか も • しかし,現実とは大きな隔たりがある – 計算コストの都合上,11人 vs 11人は難しい (googleの計算リソースをもって しても) – ボール,敵,味方の観測が完全なことを仮定 – 神経伝達の遅延無 – 疲れがない – 簡略化されたルール(ハンド,ファールがない など) • dense reward shapingと個別タスクの設計次第で, 18

19.

おまけ • ボクシング,フェンシングでの事例 – タイトル: Control Strategies for Physically Simulated Characters Performing Two-player Competitive Sports – 出典: SIGGRAPH 2021 – 著者: JUNGDAM WON, DEEPAK GOPINATH, JESSICA HODGINS. – 所属: Facebook AI Research 19

20.

引用 [1] SlimeVolley Gymhttps://github.com/hardmaru/slimevolleygym [2] OpenAI Gym https://gym.openai.com/ [3] DeepMimic https://xbpeng.github.io/projects/DeepMimic/index.html [4] Unity3D ML-agent https://blog.unity.com/technology/trainingintelligent-adversaries-using-self-play-with-ml-agents 20