【DL輪読会】1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

>100 Views

January 29, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP ”1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities” [DL Papers] Kensuke Wakasugi, Panasonic Holdings Corporation. http://deeplearning.jp/ 1

2.

書誌情報 ◼ タイトル: 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities ◼ 著者: Kevin Wang 1, Ishaan Javali 1, Michał Bortkiewicz 2, Tomasz Trzci´nski 2, Benjamin Eysenbach 1 ◼ 所属:1 Princeton University、2 Warsaw University of Technology ◼ 出典:NeurIPS 2025 Best paper https://arxiv.org/abs/2503.14858 https://openreview.net/forum?id=s0JVsx3bx1 ◼ 選書理由 • 画像・言語系では実績のある深いNNのスケーリングが、強化学習においてどのように実現されたのか • スケーリングと合わせて、どのような知見が獲得されたのか知りたい 特に記載がない限り、本資料の図表は上記論文からの引用です 2

3.

概要 強化学習において、アーキテクチャサイズ増による性能向上を確認 depth64 depth 32以下 depth64で 性能が急激に高上 3

4.

背景 強化学習(RL)におけるスケーリングが難しい • 画像や自然言語では、トランスフォーマー・自己教師あり学習を組み合わせて 大規模モデルを学習し、性能向上を達成している • しかしながら、RLではスケーリング困難とされる ※パラメータが活用できていない、データがスパース、学習が不安定等 • 模倣学習、MoEなどの特定の問題に限定されている。 • あるいは、アーキテクチャのスケーリングとして、幅のスケーリングは報告あり シンプルな構成で深さ方向のスケーリングを示した 4

5.

Contribution 従来できなかったRLにおける(深さ方向の)スケーリングを実現 • Empirical Scalability: パラメータの増加に応じて、ベースライン比20倍越えの性能を示した。 • Scaling Depth in Network Architecture: 既存研究では幅のスケーリングは示されていたが、 深さのスケーリングによって、それ以上の性能向上を示した。 • Empirical Analysis: 解析を行い、スケーリングにおける重要な要素を提示 5

6.

ゴール条件付きRL + 対照学習 の定式化 ゴール条件付きRL ゴール条件付きMDP 遷移確率 ゴール条件付きポリシー 報酬関数 (1ステップでゴール 到達する確率密度) 割引状態訪問分布 Q関数 𝑀𝑔 = (𝑆, 𝐴, 𝑝0 , 𝑝, 𝑝𝑔 , 𝑟𝑔 , 𝛾) 𝑝(𝑠𝑡+1 ∣ 𝑠𝑡 , 𝑎𝑡 ) 𝜋 𝑎 𝑠, 𝑔 𝑟𝑔 𝑠𝑡 , 𝑎𝑡 ≜ 1 − 𝛾 𝑝(𝑠𝑡+1 = 𝑔 ∣ 𝑠𝑡 , 𝑎𝑡 ) 𝜋 ⋅ ⋅, 𝑔 𝑝𝛾 𝑄𝑔𝜋 𝑠, 𝑎 ∞ 𝜋 ⋅ ⋅, 𝑔 (𝑠) ≜ 1 − 𝛾 ෍ 𝛾 𝑡 𝑝𝑡 𝜋 ⋅ ⋅, 𝑔 ≜ 𝑝𝛾 (𝑠) 𝑡=0 𝑔 𝑠, 𝑎 参考過去発表(稲富さん) 【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning November 18, 2022 6

7.

ゴール条件付きRL + 対照学習 の定式化 ゴール条件付きRL 報酬関数 (1ステップでゴール 到達する確率密度) 𝑟𝑔 𝑠𝑡 , 𝑎𝑡 ≜ 1 − 𝛾 𝑝(𝑠𝑡+1 = 𝑔 ∣ 𝑠𝑡 , 𝑎𝑡 ) ∞ ポリシーの目的関数 (期待割引報酬の最大化) max 𝐸𝑝0 (𝑠0 ),𝑝𝑔 (𝑔),𝜋 ⋅ ⋅, 𝑔 𝜋 ෍ 𝛾 𝑡 𝑟𝑔 𝑠𝑡 , 𝑎𝑡 𝑡=0 7

8.

ゴール条件付きRL + 対照学習 の定式化 対照学習 Critic 𝑓𝜙,𝜓 𝑠, 𝑎, 𝑔 = |𝜙 𝑠, 𝑎 − 𝜓 𝑔 |2 𝐵 InfoNCE 目的関数 (critic の学習) Policy(actor)の 最適化 min 𝐸𝐵 − ෍ log 𝜙,𝜓 𝑖=1 𝑒 𝑓𝜙,𝜓 𝑠𝑖,𝑎𝑖,𝑔𝑖 経路上にあるgに対しては、 L2ノルムを小さく、それ以外に ついて大きく学習する 𝑓𝜙,𝜓 𝑠𝑖 ,𝑎𝑖 ,𝑔𝑗 σ𝐾 𝑒 𝑗=1 max 𝐸𝑝0 (𝑠0 ),𝑝(𝑠t+1 |𝑠𝑡,𝑎𝑡),𝑝𝑔 (g),𝜋𝜃 𝑎 𝑠, 𝑔 𝑓𝜙,𝜓 𝑠, 𝑎, 𝑔 𝜋𝜃 8

9.

アーキテクチャ Dense+LayerNorm+Swish と 4層Residual Connection で構成 • シンプルな構成で4~1024層迄を構築 9

10.

実験環境 GPU、各種ベースラインアルゴをサポートしたJaxGCRL環境で検証 • GPUサポートや 各種ベースラインアルゴを利用可能 https://github.com/MichalBortkiewicz/JaxGCRL 10

11.

深さのスケーリング 強化学習において、アーキテクチャサイズ増による性能向上を確認 depth64 depth 32以下 depth64で 性能が急激に高上 11

12.

ベースライン手法との比較 8/10のタスクで既存手法を凌駕 • 一部タスクにおいて 序盤のサンプル効率で劣っていたか 12

13.

臨界深度と特徴的な行動の獲得 タスクごとに臨界深度を確認。新たな行動の獲得に寄与 13

14.

スケーリングに重要なのは何か? 幅よりも、深さの方がより効果的にスケーリング 14

15.

スケーリングに重要なのは何か? Actor/Criticは双方重要 • タスクによって、 臨界深度がActor/Critic双方に見られる 15

16.

バッチサイズスケーリング 深いNNによってバッチサイズスケーリングにも効果が 16

17.

1024層の学習 Humanoid U Mazeはさらなる性能向上の可能性も • 1024層まで実験(計算リソース上限)し 性能改善を確認 ※Open reviewより 1,000 層のネットワークを含むすべての実験は、 単一の 80 GB A100 で実行できるとのこと 17

18.

スケーリングでなにが変わったか 周囲環境の理解が改善。リュークリッド距離に依存しないQ関数を獲得 • 4層では、ユークリッド距離を評価し壁に向かってしまう →64層では、解消 18

19.

表現能力と探索能力の相乗効果 データカバレッジと表現能力の両方が重要 検証内容 • Collector(4層/32層)を用意し、 リプレイバッファをためる • 同じリプレイバッファを使い、 Deep(32層)と Shallow(4層)を学習 19

20.

層の深さと潜在空間の使い方 深い方が、ゴール付近をより広い領域で表現 20

21.

小タスクの統合能力 層を深くすると、徐々にタスクの統合能力を獲得 • 層を深くする毎に、 事前タスクを組み合わせてタスクを解くことができるように 21

22.

スケーリングは対照強化学習だけで有効か? 基本は対照強化学習のみ、一部CBCGでも確認 • GCBC(Goal-Conditioned Behavioral Cloning) でスケーリングを確認 →その他の手法でスケーリングする可能性を示唆 • 別途OGBenchでオフライン学習への効果を検証するも 効果を確認できず 22

23.

まとめ 対照強化学習において、層のスケーリングによる性能向上を実現 • Dense+LayerNorm+Swish と ResNet、および、対照学習という シンプルな構成でスケーリングによる性能向上を達成 • バッチスケーリングや、事前学習スキルの統合など、深層化による恩恵を示した。 • 主に対照強化学習での性能向上であり、他手法での貢献は今後の課題 所感 • ResNetやNormなど、深いNN(~1000層)の学習では常套手段だが、 対照学習との組み合わせて初めて効果が出たかということか? • 現在地点として、訓練時の分散を抑えられた(訓練誤差を小さくできるようになった)と考えると、 今後は、まずは大規模化による高次特徴獲得、次いで、高効率な学習や汎化性能の獲得と いった方向性が予想されるか? 23