【DL輪読会】A Path Towards Autonomous Machine Intelligence

1.

DEEP LEARNING JP [DL Papers] A Path Towards Autonomous Machine Intelligence 小林範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1

http://deeplearning.jp/

2.

書誌情報タイトル： A Path Towards Autonomous Machine Intelligence https://openreview.net/forum?id=BZ5a1r-kVsf&fbclid=IwAR0V0k7AXdlkSkvQrst1tu0bt1N7ZpWkh683tFFxkBw92OduOwy0wnmQGQ 著者： Yann LeCun 概要： • • • • • Yann LeCunさんの人工知能を実現するためのポジションペーパー。すべてのモジュールが微分可能で、その多くが訓練可能な全体的な認知アーキテクチャを提案。 JEPA と階層的JEPAを提案。情報量が多く予測可能な表現を同時に生成する、非対照型自己教師あり学習を提案。不確実性の下で予測世界モデルの基礎として、階層型JEPAを使用する方法を提案。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://openreview.net/forum?id=BZ5a1r-kVsf&fbclid=IwAR0V0k7AXd-lkSkvQrst1tu0bt1N7ZpWkh683tFFxkBw92OduOwy0wnmQGQ

3.

4.

１. プロローグプロローグ • この文書は、伝統的な意味での技術論文でも学術論文でもなく、動物や人間のように学習し、推論や計画を行うことができ、外部の教師、外部の報酬ではなく、内在する目的によって行動を起こす知的機械への道を示す、私のビジョンを表現したポジションペーパーである。 • この論文で述べられている多くのアイデア（ほとんどすべて）は、多くの著者によって様々な文脈で様々な形で定式化されている。 • 本論文は、これらのアイデアのどれが優先されるかを主張するものではなく、それらをいかにして一貫した全体像に組み立てるかについての提案を行うものである。特に、今後の課題を挙げている。また、成功する可能性のある、あるいはそうでない道筋をいくつか挙げている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. Yann LeCun さん画像出典： https://ja.wikipedia.org/wiki/%E3%83%A4%E3%83%B3%E3%83%BB%E3%83%AB%E3%82%AB%E3%83%B3 4

https://ja.wikipedia.org/wiki/ヤン・ルカン

5.

２. はじめに現在、AI研究が取り組むべき課題は大きく3つ１. 機械は観察によって、どのようにして世界を表現すること、予測することを学び、行動することを学ぶことができるのか？ 2. 機械はどのようにして、勾配に基づく学習と互換性のある方法で推論し、計画を立てることができるのか？ 3. 知覚や行動計画を、階層的に複数の抽象度で、複数の時間スケールで表現することを、機械はどのように学習するのだろうか。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5

6.

２. はじめに本論文の主な貢献は以下の４つ 1. すべてのモジュールが微分可能で、その多くが訓練可能な全体的な認知アーキテクチャを提案。 2. JEPA と階層的JEPAを提案。 3. 情報量が多く予測可能な表現を同時に生成する、非対照型自己教師あり学習を提案。 4. 不確実性の下で予測世界モデルの基礎として、階層型JEPAを使用する方法を提案。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6

7.

２. はじめに２.1 ラーニングワールドモデル • 人間や動物は、少ないインタラクションと観察を通して、世界の仕組みと背景知識を学ぶことができるようである。これは、しばしば常識と呼ばれるものを基礎を構成していると仮定できる。常識的な知識は、単に将来の結果を予測するだけでなく、時間的、空間的に欠落した情報を補うことができる。常識とは、何がありそうで、何がありえないかを教えてくれる世界モデルの集合体と見ることができる。 • このような世界モデルを用いると、ほとんど試行することなく新しい技能を習得することができる。動物たちは、自分の行動のシーケンスを予測し、推論し、計画し、探索し、問題に対する新しい解決策を想像することができる。 • 教師なし（または自己教師あり）方式で世界モデルを学習し、そのモデルを用いて予測、推論、計画を行うことを可能にする学習パラダイムとアーキテクチャを考案することが、AIとMLの主要課題の1つであると考えている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7

8.

2. はじめに 2.2 人間と動物がモデルの階層を学ぶ • 乳幼児がどの年齢で、世界の仕組みに関する様々な概念を一般に何歳ごろに獲得するかを示した図。 • 抽象度の高い概念は、低い概念の上に発達していくようである。 • このような知識の多くは、特に最初の数週間から数ヶ月の間は、ほとんど直接的に介入することなく、観察によって獲得される。 Emmanuel Dupoux氏による研究 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

9.

２. はじめに 2.2 人間と動物がモデルの階層を学ぶ • 世界に関する知識と、行動や内発的な動機・目的とを組み合わせることで、動物は新しい課題を素早く学習し、その成果を予測することができる。 • 自分の行動がもたらす結果を予測し、計画的に行動し、成功の道筋を予測し、危険な状況を回避する。しかし、人間や動物の脳は、生存に必要な世界モデルをすべて含むことができるのだろうか？ • 本論文の一つの仮説は、動物も人間も前頭前野のどこかにたった一つの世界モデルエンジンを持っているというものである。その世界モデル・エンジンは、目の前のタスクに合わせて動的に設定可能である。すべての状況に対して個別のモデルを持つのではなく、単一の設定可能な世界モデル・エンジンがあれば、世界の仕組みに関する知識がタスク間で共有されるかもしれない。これにより、ある状況に対して設定されたモデルを別の状況に適用することで、類推による推論が可能になるかもしれない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9

10.

３. 自律知能のためのモデル・アーキテクチャ自律知能のためのアーキテクチャ • AIシステムが動物や人間のように学習し、推論するために、 6つの個別のモジュールで構成されるアーキテクチャを提案。 • 各モジュールは微分可能であると仮定し、自身の入力に対する目的関数の勾配推定を容易に計算し、勾配情報を上流のモジュールに伝搬させることができるとしている。 6つのモジュール 1. 2. 3. 4. 5. 6. Configurator モジュール Perception（知覚）モジュール World Model モジュール Cost モジュール Actor モジュール Short-term Memory モジュール Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10

11.

３. 自律知能のためのモデル・アーキテクチャ自律知能のためのアーキテクチャ１．configuratorモジュール • 実行制御を行う。 • 実行すべきタスクが与えられると、知覚モジュール、世界モデル、コスト、およびActorを目前のタスクのために設定する。（または、これらのモジュールのパラメータを調整する。）２．Perception（知覚）モジュール • センサーから信号を受け取り、世界の現在の状態を推定する。 • あるタスクでは、知覚された世界の状態のごく一部だけが関連し、有用である。Configuratorモジュールは、目前のタスクに関連する情報を知覚モジュールから抽出する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

３. 自律知能のためのモデル・アーキテクチャ自律知能のためのアーキテクチャ３．World Model（世界モデル）モジュール • アーキテクチャの中で最も複雑な部分を構成。その役割は2つ。 (1) 知覚によって世界の状態に関する不足情報を推定すること。 (2) 世界のもっともらしい将来の状態を予測すること。 • 世界モデルは、世界の自然な進化を予測したり、Actorモジュールが提案する一連のアクションの結果として将来の世界の状態を予測することができる。世界モデルは、タスクに関連する世界の部分の一種のシミュレータである。世界は不確実性に満ちているので、モデルは複数の可能な予測を表すことができなければならない。例）交差点に近づくドライバーは、交差点に近づく他の車が一時停止標識で止まらない場合に備えて、速度を落とすかもしれない。と予測する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12

13.

３. 自律知能のためのモデル・アーキテクチャ自律知能のためのアーキテクチャ４．Costモジュール • エージェントの「不快感」のレベルをエネルギーと呼ばれるスカラー量として測定する。エネルギーは2つのサブモジュール（固有コストモジュールとCriticモジュール）の和である。固有コストモジュール不変（訓練不可能）であり、即時の不快感（エージェントの損傷、ハードコードされた行動制約の違反など）を計算する。 Criticモジュール固有コストの将来の値を予測する訓練可能なモジュール。 • • エージェントの全体的な目的は、平均エネルギーを最小にするような状態に留まるように行動すること。コストモジュールは微分可能なので、コストの勾配を他のモジュールに逆伝播して、計画、推論、学習を行うことができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13

14.

３. 自律知能のためのモデル・アーキテクチャ自律知能のためのアーキテクチャ５．Actor モジュール • • 一連の動作の提案を計算し、動作を出力する。世界モデルに対して行動シーケンスを提案する。世界モデルは行動シーケンスから将来の世界状態シーケンスを予測し、コストに供給する。このとき、コストは提案された行動シーケンスに関連する将来の推定エネルギーを計算する。提案された行動シーケンスに関する推定コストの勾配にアクセスできるので、勾配に基づく方法を用いて推定コストを最小化する最適な行動シーケンスを計算することができる。６．Short Term Memory （短期記憶）モジュール • • 世界の過去、現在、未来の状態に関する関連情報と、それに対応する固有コストの値が格納される。世界モデルは、将来（または過去）の状態を時間的に予測しながら、また、現在の世界の状態について欠落した情報を空間的に補完したり矛盾した情報を修正しながら、短期記憶にアクセスし更新する。世界モデルは短期記憶にクエリーを送り、取り出された値を受信したり、状態の新しい値を保存したりすることができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

３. 自律知能のためのモデル・アーキテクチャ典型的な知覚-行動ループ知覚モジュールとActorモジュールのエピソードに対して、採用できる2つのモード。モード-1 モード１ • • 複雑な推論を伴わず、知覚の出力と可能な限りの短期記憶モジュールから直接行動を起こす。 Kahnemanの「システム1」との類似性から、これを「モード1」と呼ぶことにする。モード２ • • モード2 世界モデルとコストを通じて推論と計画を行う。 Kahnemanの「システム2」になぞらえて「モード2」と呼ぶことにする。ここでいう「推論」とは、エネルギー最小化を意味する広義の言葉として使用する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

３. 自律知能のためのモデル・アーキテクチャモード-1: 反応行動 • 知覚モジュールは、エンコーダを介して、タスクに関連する情報を含む世界の状態の表現 𝑠[0] = 𝐸𝑛𝑐(𝑥)を抽出する。 • 𝐹[0] = 𝐶(𝑠[0]) とし、 (𝑠[0], 𝑓(0)) を短期メモリに格納する。 • Actorのコンポーネントであるポリシーモジュールは、状態の関数としてアクションを生成する。𝑎[0] = 𝐴(𝑠[0])となる。 • 世界モデル 𝑠(1) = 𝑃𝑟𝑒𝑑(𝑠[0], 𝑎[0]) と関連するエネルギー𝑓[0] = 𝐶(𝑠[0])を用いて次の状態を予測する。取られた行動の結果としての次の観測が利用可能になった時点で、世界モデルを調整することができるようにすることもできる。 • 世界モデルを用いることで、エージェントは行動を想像し、その効果や結果を予測することができる。これにより、外界で複数の行動を試し、その結果を測定することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. モード1 16

17.

３. 自律知能のためのモデル・アーキテクチャモード-2：世界モデルを使った推論と計画モード2 Perception（知覚）モジュール • 世界の状態 s[0] を推定する。 Actorモジュール • 一連の行動 𝑎[0], 𝑎[1], … 𝑎[𝑡], 𝑎[𝑡 + 1], ….𝑎[𝑇]を提案する。世界モデルモジュール • 𝑠[𝑡+1] = 𝑃𝑟𝑒𝑑(𝑠[𝑡], 𝑎[𝑡]) を用いて、世界の状態の推定値を再帰的に予測する。コストモジュール • C(s[t])は予測された各状態のエネルギーを計算し、それらの合計を総エネルギーとする。 Actorモジュール • 総エネルギーを最小化するアクションのシーケンスを推論する。そして、そのシーケンス内の最初のアクションをエフェクタに送信する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

３. 自律知能のためのモデル・アーキテクチャモード-2：世界モデルを使った推論と計画 1. 知覚知覚システムは、世界の現在の状態の表現 𝑠[0] = 𝑃 (𝑥) を抽出する。コストモジュールは、その状態に関連する即時コストを計算し、格納する。 2. 行動提案 Actorは、評価のために世界モデルに供給されるアクションの初期シーケンスを提案する。 𝑎 0 ,… ,𝑎 𝑡 ,… ,𝑎 𝑇 3. シミュレーション世界モデルは、提案された行動シーケンス（𝑠[1], … , 𝑠[𝑡], … , 𝑠[𝑇 ]）から生じる世界状態表現の一つまたは複数の可能性のあるシーケンスを予測する。 4. 評価コストモジュールは、予測された状態遷移から総コストを推定する。一般に時間ステップの総和として 𝐹 (𝑥) = σ𝑇𝑡=1 𝐶 [𝑠[𝑡]] 5. 計画 Actorはより低いコストで新しい行動シーケンスを提案する。これは、コストの勾配が計算グラフを通してアクション変数に逆伝播される勾配ベースの手順によって行うことができる。結果として得られる最小コストの行動列は、 (𝑎[0], ු … , 𝑎[𝑇 ු ]) と表記される。 6. 行動低コストの行動シーケンスに収束した後、Actorは低コストのシーケンスの最初の行動（または最初のいくつかの行動）をエフェクタに送る。このプロセス全体が、次の知覚-行動エピソードに対して繰り返される。 7. 記憶全ての行動の後、固有コストモジュールとCriticモジュールからの状態と関連するコストが短期メモリに格納される。これらのペアは後でCriticの訓練や適応に利用することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

３. 自律知能のためのモデル・アーキテクチャ「モード2」から「モード1」へ：新しいスキルの習得 • モード２最適化の結果得られる行動を近似的に実現するためのポリシーモジュール𝐴(𝑠[𝑡])の学習方法を示す。（右図） ② ① • • モード 2 で動作し、最適な一連の行動 (𝑎[0], ු … , 𝑎[𝑇]) ු を生成する。モード2 推論の結果から、反応性ポリシーモジュールをトレーニングする最適な行動とポリシーモジュールの出力との間の発散 𝐷(𝑎[𝑡]), ු 𝐴(𝑠[𝑡]) を最小にするようにポリシーモジュールのパラメータが調整される。一旦訓練されると、ポリシーモジュールはモード1における行動 𝑎[0] ු = 𝐴(𝑠[0])を直接生成するために使用することができる。また、モード2最適化の前に、初期行動を再帰的に計算するために使用することもできる。この結果、ポリシーモジュールは、償却推論を行い、良いアクションシーケンスの近似を生成する。 𝑠[𝑡 + 1] = 𝑃𝑟𝑒𝑑(𝑠[𝑡], 𝑎[𝑡]) ; Copyright (C) Present Square Co., Ltd. All Rights Reserved. 𝑎[𝑡 ු + 1] = 𝐴(𝑠[𝑡 + 1]) 19

20.

３. 自律知能のためのモデル・アーキテクチャ 3.2 行動の原動力となるコストモジュール • • • コストモジュールは、不変の 𝑰𝑪(𝒔)と、Criticまたは訓練可能なコスト 𝑻𝑪(𝒔) から構成される。 ICとTCはともに複数のサブモジュールからなり、その出力は線形に合成される。線形結合の重み 𝑢𝑖 と 𝑣𝑗 はConfiguratorモジュールによって決定される。これにより、エージェントが異なるサブゴールに集中することを可能にする。コストモジュールのアーキテクチャ Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20

21.

３. 自律知能のためのモデル・アーキテクチャ 3.3 Critic の訓練 • Criticの主な役割は、固有コストの将来値を予測すること。 • 固有コストモジュールは、トリプレット（時間𝜏 、状態𝑠𝜏 、固有エネルギー𝐼𝐶(𝑠𝜏 ) ）を格納する短期記憶モジュール。 • 保存された状態と対応する固有コストは、知覚された状態、またはモード2エピソード中に世界モデルによって想像した状態に対応することができる。 • 短期記憶は時間𝜏が与えられた状態 𝑠τ を検索し、時間τまたは状態 𝑠𝜏 が与えられた固有コスト𝐼𝐶(𝑠𝜏 ) を検索することができる。 • 過去の状態ベクトル 𝑠τ と、後の時間における固有コスト IC(𝑠τ + 𝛿) を取得することで、将来の固有コスト値を予測するように Criticを訓練できる。 • Critic のパラメータは、 IC(𝑠τ + 𝛿) − 𝑇𝐶(𝑠τ ) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2 のような予測損失を最小化することで最適化できる。 21

22.

４. World model の設計と育成 Joint-Embedding Predictive Architecture（JEPA） • 2つのエンコーディングブランチから構成される。最初のブランチは 𝑥 の表現である 𝑠𝑥 を計算し、2 番目のブランチは 𝑦 の表現である 𝑠𝑦 を計算する。 • 𝑥 から yの予測を明示的に生成することなく 𝑥 と 𝑦 の依存関係を捉える。 • 予測器モジュールは、潜在変数 𝑧 の入力を受け、𝑠𝑥 から 𝑠𝑦 を予測する。 • 2 つのエンコーダーは異なっていて良く、同じアーキテクチャである必要はない。パラメータを共有する必要もない。このため、𝑥 と 𝑦 は異なる性質を持つことができる。 (例: ビデオとオーディオ)。 • 予測器モジュールは 𝑥 の表現から 𝑦 の表現を予測する。予測器は潜在的な変数 𝑧 に依存することがある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22

23.

４. World model の設計と育成 Joint-Embedding Predictive Architecture（JEPA） JEPAの主な利点エンコーダーによって表現空間で予測を行い、𝑦 のすべての詳細を予測する必要をなくし、無関係な詳細を除去できる。 ① エンコーダ関数 𝑠𝑦 = 𝐸𝑛𝑐(𝑦) は、異なる 𝑦 の集合に対して同じ 𝑠𝑦 を生成させる不変性を持っているかもしれない。 ② 潜在変数 𝑧 は、集合𝑍上で変化させたとき、もっともらしい予測の集合を生成することができる。 𝒙, 𝒚, 𝒔𝒙 , 𝒔𝒚 , 𝒛 の具体例 • • 𝑥が分かれ道に差し掛かった車の映像の場合、𝑠𝑥 、𝑠𝑦 は、分岐前と分岐後の車の位置、姿勢、速度などの特性をそれぞれ表し、道路に接する木や歩道の質感などの無関係な部分は無視される。 z は、道路左側の分岐を進むか、右側の分岐を進むかを表す。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23

24.

４. World model の設計と育成エネルギーベースモデル（EBM）のトレーニング対照法 • 学習サンプルのエネルギー（青い点）を押し下げ、適切に配置された対照サンプルのエネルギー（緑の点）を引き上げる。 • 対照法は、対照サンプルが置かれた場所でのみエネルギーが引き上げられること。対照サンプルの数が、𝑦空間の次元に比例して指数関数的に増加することが欠点。正則化法（非対照法） • 学習サンプルのエネルギーを押し下げ、低エネルギー領域の体積を最小化するような正則化項を使用する。この正則化は、エネルギー関数の柔軟性が許す範囲で、データ密度の高い領域を低エネルギー領域内に「収縮」させる効果がある。 EBMトレーニングのための対照法と正則化法 ※学習サンプルは青い点。エネルギーの低い領域はオレンジ色。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 24

25.

４. World model の設計と育成 VICReg（Bardes et al., 2021）（Variance-Invariance-Covariance Regularization For Self-Supervised Learning） • • 分散、不変性、共分散正則化を用いたJoint-Embedding Architectures。画像 I のバッチが与えられると、異なるビュー X と X‘ の2 つのバッチが生成され、表現 Y と Y’ に符号化される。同じ画像からの２つの埋め込み間の距離は最小化され、バッチ中の各埋め込み変数の分散は閾値以上に維持され、バッチ中の埋め込み変数のペア間の共分散は0に引き寄せられ、互いの変数が非相関化される。2つのブランチは同一のアーキテクチャを必要とせず、重みも共有しない。各次元に沿った埋め込み値の分散に対する単純な正則化項により、崩壊問題を回避する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 25

26.

４. World model の設計と育成 JEPA の学習 • JEPAは、正則化法（非対照法）を工夫して学習させる。（対照法は高次元では非効率になる傾向がある） JEPA の場合、以下の4 つの基準によって行うことができる。 ① ② ③ ④ • • • –I(𝑠𝑥 )の最大化： –I(𝑠𝑦 )の最大化： D(𝑠𝑦 , 𝑠෥𝑦 )の誤差の最小化：： R(z)の最小化 𝑥 に関する 𝑠𝑥 の情報量を最大化する。 𝑠𝑦 の 𝑦 に関する情報量を最大化する。 𝑠𝑦 から容易に予測できるようにする。予測に用いる潜在変数 𝑧 の情報量を最小化する。 JEPA の非対照学習 ①、②は、情報的な経過によってエネルギー表面が平坦になることを防ぐ。 ③は、エネルギー項 𝐷(𝑠𝑦 , 𝑠ǁ𝑦 )によって強制し、𝑦 が以下のものから予測可能であることを保証する。𝑥 を表現空間に配置する。 ④は、潜在能力からの助けをできるだけ借りずに 𝑠𝑦 を予測するようモデルに強制することで、システムが別のタイプの情報の欠落の犠牲になるのを防ぐ。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 26

27.

４. World model の設計と育成 VICReg を用いた JEPAの学習 ①𝑣𝑥 = 𝐸𝑥𝑝(𝑠𝑥 ) ②𝑣𝑦 = 𝐸𝑥𝑝(𝑠𝑦 ) • VICReg を用いた JEPA の学習 Conv(𝑣𝑥 ) → I Conv(𝑣𝑦 ) → I 𝑠𝑥 と 𝑠𝑦 は、拡張器（𝐸𝑥𝑝()）を通して高次元の埋め込み 𝑣𝑥 と 𝑣𝑦 にマッピングすることで最大化する。サンプルのバッチ上で計算された2つの微分可能な損失項を持つ損失関数を使うことで、埋め込みの共分散行列を恒等式に向かわせる。 ③表現予測誤差 𝐷(𝑠𝑦 , 𝑠ǁ𝑦 ) の最小化 ④𝐷( 𝑠𝑦 , 𝑠ǁ𝑦 ) = 𝐷( 𝑠𝑦 , 𝑠𝑥 ) = 𝑠𝑦 − 𝑠𝑥 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2 の最小化 27

28.

４. World model の設計と育成階層型JEPA (H-JEPA) • JEPA はエンコーダーを訓練して、入力の無関係な細部を排除し、表現をより予測可能なものにできる。 • 抽象的な表現を学習できるため、階層的な積み重ねが可能である。 JEPA-1が低レベルの表現を抽出し、短期予測を行う。（右図） • JEPA-2は、JEPA-1が抽出した表現を入力とし、より長期的な予測が可能な高次の表現を抽出する。より抽象的な表現は、長期予測が困難な入力の詳細を無視し、より粗い世界の状態の記述で長期予測を行うことができる。具体例短期予測：数秒間にハンドルやペダルを操作する一連の動作。 →同じ時間内の自分の車の軌跡を正確に予測することができる。長期予測：他の車や信号機、歩行者などの予測不可能な外的要因に左右される。 →より長い時間の軌跡を予測することは困難である。しかし、高い抽象度であれば正確な予測をすることができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 28

29.

４. World model の設計と育成 ① 階層的プランニング • マルチスケール世界モデルの階層性を利用した階層的なモード２をプランニングするためのアーキテクチャ。 • 知覚は、エンコーダーのカスケードによって、複数の抽象化されたレベルの表現にコード化される。モード 2 階層計画のための階層的 JEPA ③ ② ② ③ ① 複雑なタスクは、高レベルの世界状態表現 𝐶(𝑠2[4])から計算される高レベルのコストで定義される。 ② 𝐶(𝑠2[4])を最小化する高レベルの抽象アクション(𝑎2[2], 𝑎2[4])のシーケンスが推論される。 ③ 推論された抽象アクションは、下位層のサブゴールを定義する下位コストモジュール 𝐶(𝑠[2]), 𝐶(𝑠[4]) に供給される。そして、下位層はサブゴールコストを最小化する行動シーケンスを推論する。 ※ここでは2層しか示していないが、多層も同様。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 29

30.

４. World model の設計と育成不確実性への対応 • 現実的な環境は、高度に抽象化された表現を用いても、完全に予測できるわけではない。予測に関する不確実性は、潜在変数を持つ予測変数で処理することができる。 • 潜在変数（赤丸）には、事前観測から得られない予測に関する情報が含まれている。潜在変数は、エネルギー崩壊を防ぎ、その助けなしに可能な限り予測するようにシステムを強制するために、正則化されなければならない。（R1、R2は、潜在変数に対する正則化） • 計画時には、正則化にギブス分散を適用した分布から潜在変数をサンプリングする。各サンプルはそれぞれ異なる予測につながる。一貫性のある潜在的な配列を生成するために、正則化器のパラメータは以前の状態や検索された記憶の関数とすることができる。 • 不確実性が存在する場合の階層的な計画エピソード各潜在変数がk個の可能な離散値を持つ場合、可能な軌道の数は𝑘𝑡 、ここで𝑡は時間ステップの数として成長する。このような場合、直接探索と枝刈り戦略を採用しなければならない。複数の予測軌道があれば、平均コスト、あるいはリスクを最小化するためにコストの平均と分散の組み合わせを最小化する最適な行動シーケンスを計算することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 30

31.

5. Actor の設計と育成 5. Actor の設計と育成アクターモジュールの役割は、3つ。 1. 世界モデルによるMode-2行動の予測から、コストを最小化する最適な行動系列を推論する。 2. エージェントが知らない世界の状態の部分を表す潜在的な変数の複数の構成を生成する。 3. モード1アクションを生成するためのトレーニングポリシーネットワーク。 • Actionと潜在的な変数の間に概念的な違いはない。両方の変数セットの構成は、Actorによって探索されなければならない。 • 潜在変数については、不確実性の下で計画するために、構成を探索しなければならない。行動変数については、コストを最小化する最適なものを生成するために、構成を探索しなければならない。敵対的なシナリオ（ゲームなど）では、コストを最大化する潜在的な構成を探索しなければならない。事実上、アクターは、最適化と探索の両役割を果たす。 • 世界モデルとコストが良好に振舞うとき、アクターモジュールは勾配に基づく最適化処理を用いて最適な行動シーケンスを推論することができる。そのために、コストと展開された世界モデルを通して勾配を逆伝播することによって計算されたコストの勾配の推定値を受信する。そして、その推定値を用いて行動シーケンスを更新する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 31

32.

6. Configurator の設計６. Configurator の設計 • • コンフィギュレータは、エージェントのメインコントローラ。他のすべてのモジュールから入力を受け、そのパラメータと接続グラフを調整する。変調は、信号をルーティングしたり、サブネットワークを活性化したり、注意を集中させたりすることができる。予測器と知覚エンコーダの上位層がトランスフォーマーブロックであるシナリオでは、コンフィギュレータの出力はこれらのトランスフォーマーブロックへの追加入力トークンであり、それによってそれらの接続グラフと機能を変更することができる。 • コンフィギュレータモジュールの利点：ハードウェアの再利用と知識の共有の2つ。（ある環境に対して学習させた世界モデルは、わずかな変更でさまざまなタスクに利用できる。）欠点：エージェントが一度に一つのタスクしか達成できないこと。 • • • コンフィギュレータの最も重要な機能は、エージェントにサブゴールを設定し、このサブゴールのためのコストモジュールを設定することである。コストを設定可能にする簡単な方法は、初歩的なコストサブモジュールの線形結合の重みを変調することである。これに対して、より洗練されたアーキテクチャでは、コストのTrainable Critic部分を柔軟に変調させることができると想像される。 • 予測器と同様に、高レベルのコストがオブジェクト間の望ましい関係のセットとして定式化されている場合（例：ナットはネジにセットされているか？）、世界の状態が満たされるべき条件からどの程度乖離しているかを測定するように訓練された変換器アーキテクチャを使用することができる。予測器と同様に、トークン入力を追加して関数を調節することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 32

33.

7. 関連研究関連研究 • 本論文で紹介されているアイデアのほとんどは新しいものではなく、認知科学、神経科学、最適制御、ロボット工学、AI、機械学習、特に強化学習において様々な形で長く議論されてきたものである。特に結びつきの強い研究 • • • • • • 学習済みWorld Model モデル予測制御階層的Planning エネルギーベースモデル（EBM） Joint-Embedding Architectures ヒトと動物の認知 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 33

34.

8. 考察提案モデルに欠けているもの動画から階層型JEPAを構築し、学習させることができるのか、という問題。 • 提案されたアプローチの広範な妥当性 Q．動物の知能モデルの基礎になりうるか？ • 提案するアーキテクチャは、単一の世界モデルエンジンを持ち、コンフィギュレータによって手元のタスクに合わせて設定することができる。もし、脳が独立した設定不可能な世界モデルを多数含むほど大きければ、コンフィギュレータは不要となり、意識の錯覚はなくなると考えられる。 Q．機械が常識を獲得する道となり得るか？ • 世界観測のセルフコンシステント（求めるべき解が自分自身を含むような問題）と相互依存性を捉えた世界モデルを学習することで、エージェントが情報の欠落を補い、世界モデルの違反を検出することで、常識が生まれるのではないかと推測している。 Q．スケーリングが全てなのか？報酬は本当に十分か？ • スケーリングだけでは不十分。現在のモデルは非常に限定的な推論しかできない。 Q. 推論に記号は必要なのか？ • 勾配に基づく探索方法が勾配を用いない探索方法よりも効率的であることから、世界モデルの学習手順が、計画・推論問題が離散問題を構成する階層的な表現を見つける方法を見つけたい。ここで提案された推論が、人間や動物が持つすべての推論を網羅できるかどうかはわからない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 34

35.

8. 考察結論 • • • • すべてのモジュールが微分可能で、その多くが訓練可能な全体的な認知アーキテクチャを提案。 JEPA と階層的JEPAを提案。情報量が多く予測可能な表現を同時に生成する、非対照型自己教師あり学習を提案。不確実性の下で予測世界モデルの基礎として、階層型JEPAを使用する方法を提案。感想 • 人工知能を実現する一つのシナリオとして、全体をとりまとめている様子が面白いと感じた。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 35

36.

Appendix 参考文献 • Ha, D. and Schmidhuber, J. (2018b). World models. arXiv preprint arXiv:1803.10122. • Kahneman, D. (2011). Thinking, fast and slow. Macmillan. • Walker, J., Razavi, A., and Oord, A. v. d. (2021). Predicting video with vqvae. arXiv preprint arXiv:2103.01950. • Gregor, K. and LeCun, Y. (2010b). Learning fast approximations of sparse coding. In Proc.International Conference on Machine learning (ICML'10). • Bardes, A., Ponce, J., and LeCun, Y. (2021). Vicreg: Variance-invariance-covariance regularization for selfsupervised learning. In International Conference on Learning Repre- sentations (ICLR 2022). arXiv preprint arXiv:2105.04906. • LeCun, Y., Chopra, S., Hadsell, R., Ranzato, M., and Huang, F. (2006). A tutorial on energy-based learning. In Bakir, G., Hofman, T., Scholkopf, B., Smola, A., and Taskar, B., editors, Predicting Structured Data. MIT Press. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 36

【DL輪読会】A Path Towards Autonomous Machine Intelligence

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト