20221125勉強会_川島_Video PreTraining (VPT) Learning to Act by Watching Unlabeled Online Videos

1.7K Views

December 07, 22

強化学習

スライド概要

HEROZ勉強会、技術調査グループ強化学習チームの発表

HEROZ株式会社

@heroz

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.19MB)

各ページのテキスト

2022年11月勉強会 Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos HEROZ株式会社川島馨 2022年11月25日

目次 1. 概要 2. 問題の難易度 3. 手法の新しさ 4. インターネット上の動画 5. 操作のラベル付け 6. モデル構成 7. 強化学習によるファインチューニング 8. 報酬設計 9. 結果 10.応用可能性 11.まとめ 2

概要 • OpenAIが発表したマインクラフトの操作を映像から学習した研究 • 請負業者(フリーランス)に依頼して作成した7000時間分のキーボード・マウス操作のラベル付き動画からIDM(逆ダイナミクスモデル)を学習 • IDMモデルを使用してインターネット上にあるラベルなしの動画に疑似ラベルを付与 • 疑似ラベルを付与した2万時間の動画から行動クローン(BC)モデル(VPTファンデーションモデル)を作成 • VPTファンデーションモデルを、強化学習でファインチューニングすることで、ダイアモンドのつるはしを作成できるようになった https://arxiv.org/abs/2206.11795 3

https://arxiv.org/abs/2206.11795

問題の難易度 • マインクラフトは、報酬が階層的 • ダイアモンドのつるはしを作成できるようになるには、 • • 木を切って、作業台を作って、石のつるはしを作って、・・・・といった何段階もある目標を達成する必要がある • 通常の強化学習の手法で学習するのはほぼ不可能 • 数年前からマインクラフトの強化学習のコンペティションが行われているが、ダイアモンドを獲得したエージェントはない • 去年のインターンの取り組みでは、石のつるはしまで 4

手法の新しさ • 少量のラベル付けした動画から、前後のフレーム間で何の操作が行われたかを予測するモデル(IDM; 逆動力学モデル)を構築 • 過去フレームから次の操作を直接学習するのに比べて、未来のフレームを使うことで、問題の難易度が大きく下がる • IDMモデルで、疑似ラベルを付与することで、ラベルなしの動画を活用できる • ラベルなしの動画はインターネット上に大量にあるため、データ収集が容易 • 疑似ラベルを付与した大量の動画から、行動を学習することで、人間が行うような基本動作(木を切る、クラフトする、作業台を作るなど)ができるエージェントを作ることができる 5

インターネット上の動画 • Youtubeから、キーワードで検索して収集 • • • • • minecraft minecraft minecraft minecraft ・・・ survival longplay gameplay no webcam gameplay survival mode survival tutorial • 動画からゲームのプレイ中の範囲を取得するために、RN50x64 ResNet CLIP Modelの学習済みモデルを使用して、画像の埋め込みを取得し、SVMの分類器を学習 • 分類のラベルは、Amazon Mechanical Turk (mTurk)で発注して付与 • 発注の方法とか単価や1画像の作業時間とかも書かれていて、実務的な内容で参考になる 6

操作のラベル付け • UpWorkフリーランスプラットフォームで募集 • 請負業者には、1 時間あたり 20 ドル支払 • バグのために使用できなかったデータも含めると実験すべてで、16万ドルの費用が掛かっている • 強化学習の元になったモデル構築には、2000ドル相当データのみ使用 • ゲーム内のイベントとビデオのみを記録 • 通常どおりMinecraft のサバイバルモードをプレイ + 特定のタスク 7

モデル構成－ IDMモデル • IDMモデルは、入力層で時系列の画像を扱うため3D畳み込み(3D-CNN)を使用 • 中間層はResNetを使用 • 出力はフレームごとのアクション • 入力画像の解像度は、128×128(内容が判別できる最小の解像度) • ResNetブロックの後ろには、トランスフォーマーブロックがあり、出力層は、フレームごとに独立した全結合層 • アクションは、マウスの動きをビンに分けて次元を抑える • モデルのパラメータ数は5億(参考までにdlshogiの20ブロック256フィルタのモデルは、約1億) • IDMモデルの学習は、請負業者がラベル付けしたデータセットを20エポック学習 • 32個のA100 GPUで4日 8

モデル構成－ファウンデーションモデル • IDMモデルとほぼ同じ • 未来のフレームを見ることができないため、最初の層が除かれている • トランスフォーマー層は、因果的にマスク • Transformer-XLスタイルの訓練 • 訓練のテクニックとして、人間は何もしない操作が35%を占めるため、連続して何も操作していしないフレームを除く、ヌルアクションフィルタリングが有効だった null アクションなしのフィルタリング (青)、すべての null アクションのフィルタリング (緑)、3 つ以上の null アクションのグループのみのフィルタリング (赤) )、および 21 以上の null アクションのグループのみをフィルタリングします (紫) 9

10.

強化学習によるファインチューニング • 強化学習によりファウンデーションモデルをファイチューニング • 開始して 10 分以内にダイヤモンドのツルハシを取得するタスクを学習 • 強化学習アルゴリズムには、PPGとPPOを使用 • PPG(Phasic Policy Gradient)は、方策は同じデータを複数回学習すると過剰適合することを防ぐために、方策をフェーズと価値を学習するフェーズに分けて学習する方法 • 価値関数の最適化は、同じデータを複数回使用することに感度が低いという仮説に基づいた方法 • 強化学習により、人間の操作を忘却することが起きるため、事前学習したモデルの行動分布とのKLダイバージェンスを損失に加える • ただし、割合を徐々に減らして、新しい探索を促進 10

11.

報酬設計 • ダイアモンドのつるはしを入手するまでの報酬は階層的に設計 • 低い報酬のアイテムが大量に収集されることを防ぐため報酬獲得の最大回数を定める • 強化学習には、80GPUと56,719CPUを使用して、約6日間（144時間）実行 11

12.

結果 • 初期ゲームの動画をファウンデーションモデルに追加学習したEarly-Game model を使用して強化学習 • 2.5%のエピソードで10分以内にダイアモンドのつるはしを入手 • 人間でダイアモンドのつるはしを入手できたのは、 15分以内で0.1%未満 12

13.

応用可能性 • データのサブセットに追加のテキスト条件付け入力を使用して微調整 • 結果は、一部の条件ではエージェントを操作できた • 「木を切って木の斧を作れ」といった自然言語による指示による操作が可能になることを示唆している • ただし、現状ではまだ不十分でこの目標を達成するには至っていない 13

14.

まとめ • マインクラフトという難易度の高いタスクが、比較的少ないラベル付けされた動画と、ラベルなしの大量の動画により学習できることが示された • この技術が成熟すれば、テキストによるPC操作など実務への応用範囲も広そう 14

20221125勉強会_川島_Video PreTraining (VPT) Learning to Act by Watching Unlabeled Online Videos

HEROZ株式会社

関連スライド

Azure AI Hub meetup #1 Azure AI ことはじめ

20221223_技術グループ発表_GPU

20221028勉強会_中井_ODMを利用したドローン動画の加工

20221223_技術グループ発表_最適化・探索

20221028勉強会_桧森_画像生成AIまでの道のり

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

各ページのテキスト