【DL輪読会】Learning to Theorize the World from Observation

>100 Views

July 02, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Learning to Theorize the World from Observation Ku Onoda, Matsuo-Iwasawa Lab M2 http://deeplearning.jp/ 1

2.

書誌情報 • 「Learning to Theorize the World from Observation」 • 著者:Doojin Baek, Gyubin Lee, Junyeob Baek, Hosung Lee, Sungjin Ahn • 学会:ICML 2026 Oral • 概要 – Learning to Theorize(L2T)というパラダイムと、Neural Theorizer(NEO)を提案 – 観測ペアから潜在プログラムを推論し、共有された遷移モデルで実行する

3.

問題意識:World Modelにおける理解とは? “Instead of trying to produce a programme to simulate the adult mind, why not rather try to produce one which simulates the child’s?” (Alan Turing, 1950) • 発達認知科学の分野 – 子供は単に「次に何かを予測する」,「大人の真似をする」だけでなく内部的な仮説・理論を 作っている(theory-theory, baby as a scientist) • 現在の多くの世界モデル → 将来フレーム予測・観測の再構成 – 単にインプットとアウトプットの間の相関を捉えることはできる – これらの表現は複合的な構造を見落としてしまう → 正しく予測できる ≠ 理解している

4.

この研究が答える問い・貢献 • 「観測された非言語的な観測入力のみから、世界についての明示的な説明理論を 構築できるように学習できるのか」 • 貢献 – 現象の観測ペアの背後にある理論を推論する学習パラダイム Learning-to-Theorize(L2T) を定式化 – 観測データから世界の仕組みを説明するための内部表現を学習するモデル NEO というモデル を提案 – モデルが再利用可能な理論を推論できるか評価するベンチマーク Observation-to-Theory Induction Benchmark(OTIB)を提案 – NEOが説明に基づく汎化を達成することを示した

5.

Learning-to-Theory • 観測ペアの背後にある理論を推論 – 言語、タスクラベル、正解プログラムに依存されない形式 • • • • 現象の観測ペア (x,y), x ~ p(x)が未観測の program τによりp(y|x,τ)で生成されると仮定 Primitive 集合: Program: Execution:

6.

L2T データの扱い • 訓練データ – 最大K個のプログラム – 訓練データ: – プログラム とその関数 のうち一部だけを使用 は観測されず から推論 • テスト時 – 訓練とは重ならないプログラム集合からのデータをみる – 訓練より長いプログラムも出る – 推論:観測ペアを最も説明する潜在プログラムτを探す 6

7.

L2T 評価 • 再利用性・移転可能性を測る – 同じプログラムτから生成された2つのペア • から を推論 – 推論した – 観測の差分 から2つ目の観測を出力 を評価 → この誤差が小さければ単に個々のインプット – アウトプットペアに フィッティングしただけではなく別の入力でも使える変換ルールと言える 7

8.

NEO(Neural Theorizer)確率モデル • NEO 条件付き尤度の最大化 – Latent Variables:programs – Marginal distribution: – General process: – 周辺化が直接実行できないので、ELBOを最大化 latent state

9.

NEO Theory Programmer • ターゲット y をみて、説明programを逐次推論 • Variational posterior – Theory programmer:現在状態からtargetに近づくためのprimitive選択 – Program execution:primitiveが行うstateの変換を実行 • execution trace から 最終状態をdecoderで生成 • VQ-VAE – Primitive をVQ-VAEのcodebookとして実装 – Primitive M は未知なので、M’ をハイパーパラメータとして設定 9

10.

NEO MDL原理 • MDL(Minimum Description Length) – 「同じくらい上手く説明できるなら、より短い説明を好む」原理 • 最終ステップだけでなく、各ステップでyを予測 • 長さkの選択 :再構成誤差 :罰則の強さを決める係数 選択された k^* から の予測のみでlossを流し、更新 10

11.

NEO 実装上の工夫 • Deterministic execution – 実装の容易さ、安定性のためにlatent stateの遷移決定的にする • State grounding – 中間状態からもdecodeできる状態にするための制約を入れる • 目的関数 • Encoder, Decoderはpretrainedモデルを使用 11

12.

ベンチマーク:OTIB • 観測ペアのみから再利用可能なprimitivesを推論できるかを評価 • 設計 – 入力:同じlatent program τで生成された2つのペア • support pair, query pair – support pairのみから推論 – 推論したprograからsupport, queryの両方で実行 • 評価指標 – Self explainability – Transferability • OOD評価 – Compositional OOD, length OOD

13.

実験設定 • GridWorld – 10*10 grid – 物体がlatent motion primitiveによって移動 – Primitive:{up, down, left, right} • Arithmetic Factorization Reasoning – 整数ペアの掛け算 – Primitive:{×2, ×3, ×5, ×7} • Image Editing – CIFER-10上の画像変換 – Primitive:{rotation, masking, brightness adjustment, ...} 13

14.

ベースライン • Discrete Monolithic (Disc-Mono) – x→yを1つの離散 latent vectorで表すモデル(1つのprimitiveのみ) • Continuous Monolithic (Cont-Mono) – 1つの連続 latent vectorで表すモデル – β-VAE • Continuous Monolithic with Program Optimization (Cont-Mono-Opt) – テスト時にzを直接最適化 • NEO-S – NEOにtest-time search • サンプリングしたうちの最も性能が良いものを選択 14

15.

実験結果:Grid World • 訓練可能な移動列のうち33%を訓練に利用 • NEOはOODで性能を維持 • NEO-Sで性能向上

16.

実験:Arithmetic Factorization Reasoning • Compositional OODには対応できる • Length OODは難しい(正確な計算が必要で1ステップでも間違えると最終出力がズレる) – test-time searcで改善(1024回サンプリング)

17.

実験:Image Editing • NEOでは画像編集でも未知の変換に対して再利用可能なprimitiv列として扱う

18.

Ablation • State grounding loss(中間表現をdecod可能にするloss) – ない場合、学習が崩壊 • Codebook size – Codebook sizeが必要なprimitivに対して大きくても丸暗記でなくprimitive-level codeを学習 • MDL weight – Weightが大きすぎるとentangled programに寄り性能低下

19.

まとめと限界 • 観測から再利用可能なprogramを学ぶモデルを学習 – という形式で、観測済みのtransitionを説明するlatent executable programを推論する 問題を定式化 • 「理論構築」としての学習 – 従来の次の遷移を予測する世界モデルに対し、NEOは現象を説明するだけの最小限の基本操作 (プリミティブ)とその組み合わせを自ら発見 • 限界 – 複雑な環境へのスケールは未検証 – 決定論的な実行への依存 • 実世界にはノイズや不確実性などの確率的な挙動が存在する – 人間が持つ概念とのズレ • モデルが発見したプリミティブが必ずしも人間が理解できる概念と一致する保証はない 19

20.

学習 20

21.

推論 21

22.

Test-Time Scaling 22