【DL輪読会】Reversible Deep Equilibrium Models

146 Views

November 06, 25

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.8K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 43.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Reversible Deep Equilibrium Models Presenter: Shinji Kotani http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 論文名 – Reversible Deep Equilibrium Model (2025 9/16) • 著者 – Sam McCallum, Kamran Arora, James Foster • 発表学会 – 情報なしプレプリントのみ • リンク – https://arxiv.org/abs/2509.12917 2

https://arxiv.org/abs/2509.12917

概要 Deep Equilibrium Models (DEQ)は少ないメモリで学習出来て、GPTと同等のPerplexity(PPL)を達成するが、推論、学習速度が遅い。これは学習で近似的な勾配を計算するからである。 Reversible Deep Equilibrium Model (Rev DEQ)では、陰関数定理を用いず、正確な勾配を計算する可逆ソルバーを提案する。 • 学習におけるメモリ効率の維持 • Transformer-XL、DEQと比較して低いPPL • 収束が早くなることによる推論、学習速度の上昇 3

先行研究 Transformer Deep Equilibrium Models (DEQ) (2019 10/28) RNNでは経験的に、繰り返しを続けると状態が一定に収束する。 DEQでは、RNNと同様に一つの層を何度も繰り返し、その状態が収束した時に推論を終了とする。 This is a embedding DEQ-Transformer This is embedding Transformer-block 1 繰り返し Transformer-block 2 Transformer-block 3 Transformer-block (DEQ ver) もし、状態zが収束していれば Transformer-block 12 収束させるため、繰り返している間は入力は固定である必要がある。 DEQをTransformer-XLに対して適用したものがDEQ-Transformerである。 a head head is is a pen a pen DEQ-Transformerは一つの層を何度も繰り返す 5

DEQ-Transformerの再帰処理 • 入力注入入力を追加し続けることで、入力文章を忘れないようにする。 • KVキャッシュは使えない。 • Solverが 𝒛𝒕 , 𝒚 から次の状態を決める。 • Solverにはブロイデン法、アンダーソン法(主流)などがある。状態 zt 入力 x linear linear Q,K,V 残差接続 + Scaled Dot-Product Attention Feed Forward Network 残差接続出力 y 𝑧𝑡+1 = Solver(𝑧𝑡 , 𝑦) 6

陰関数定理 • 収束したと仮定すると、陰関数定理で損失関数に対する勾配を計算できる。 • ただし巨大なヤコビアンの逆行列を求めることは難しいため、ブロイデン法 ∂L ソルバーなどでw = ∗ (Jgθ −1 |z ∗ ) を ∂z 近似的に求める。 • そのため、近似的な勾配となる。 • BPTTを使わないため学習における、メモリ効率が高い RNN zt+1 = f (zt , x) 収束した (zt+1 = zt ) と仮定 DEQ z ∗ = f (z ∗ , x) 陰関数定理を用いた勾配計算 ∗ ∂L ∂L −1 ∗ ∂fθ (z ; x) = − ∗ (Jgθ |z ) ∂θ ∂z ∂θ DEQ層より前の勾配ヤコビアンの逆行列 w DEQ層より後の勾配 8

DEQの実験結果 DEQ-Transformerは、同じパラメータで Transformer, Transformer-XLと比較して、同等の Perplexityを達成する。また、陰関数定理により、学習でメモリ消費を大きく削減できる。ただし、状態が収束するまで繰り返しを行うため、推論、学習速度が遅い。学習で省メモリだが推論、学習速度が遅い Transformer 9

DEQの問題点陰関数定理 BPTT 良い点良い点 • 学習のメモリ効率がとてもいい • 正確な勾配 • BPTTにおける繰り返し数を無限にしたと言える。 • 入力を固定する必要がない悪い点悪い点 • 陰関数定理による近似的な勾配 • 勾配計算で収束を仮定しているが、厳密には収束しないため、さらに近似的な勾配となる。二重の近似がある • 繰り返し数を増やすとメモリが線形で増加 • 勾配爆発、消失 10

Reversible Deep Equilibrium Model (Rev DEQ) DEQにおいての、近似的な勾配は陰関数定理が原因なので、陰関数定理を使わない！代わりに可逆ソルバーを使うことでBPTTのメモリ問題と、勾配爆発収束問題を解決する DEQをBPTTで学習させる。さらにそのBPTTを改良 11

10.

可逆ソルバー順伝播可逆ソルバーでは二つの状態zt , yt を持つ。 yt+1 = (1 − 𝛽)yt + 𝛽f𝜃 (zt , x) zt+1 = (1 − 𝛽)zt + 𝛽f𝜃 (yt+1 , x) BPTTでは途中の状態をメモリに保存するためメモリ効率が悪いしかし、可逆ソルバーを用いると、現在の状態zn+1 , yn+1 から、zt , yt を厳密に復元出来る。これにより、メモリに保存する必要がなくなり、モデルの実質的な深さNに対して𝑶(𝟏)となる。状態の復元 zt+1 − 𝛽f𝜃 (yt+1, x) zt = 1−𝛽 yt = yt+1 − 𝛽f𝜃 (zt , x) 1−𝛽 12

11.

実験結果言語モデリングタスク • 同パラメータでTransformer-XL, DEQに比べて低いPerplexity(PPL) • DEQに比べて、少ない関数評価（推論、学習速度3倍）画像認識タスク • 少ないパラメータ数で同等の精度 • DEQに比べて、少ない関数評価（推論、学習速度2~3倍) 13

12.

まとめ・感想まとめ：DEQのメモリ効率を維持し、正確な勾配を求め精度、推論学習速度を上昇良い点 • 精度、推論学習速度を上昇している。 • 理論、数式がシンプルで理解しやすい疑問が残った点 • 169Mまでしか検証されていない。スケーリングはするのか？ • PPLしか比較していない。下流タスクの性能は？ • BPTTとの学習速度、メモリ効率の比較がない。 14

13.

参考文献 1. Bai, S., Kolter, J. Z., & Koltun, V. (2019). Deep equilibrium models. Advances in neural information processing systems , 32. 2. McCallum, S., Arora, K., & Foster, J. (2025). Reversible Deep Equilibrium Models. arXiv preprint arXiv:2509.12917. 15