【Diffusion勉強会】Diffusion Modelsの汎化と記憶

-- Views

October 15, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Diffusion Modelsの汎化と記憶 Daiki Miyake, Matsuo Lab 1

2.

• 以下のDiffusion Models/Flow Matchingにおける汎化/記憶に関する論文を読む 2

3.

文献情報 • On the Closed-Form of Flow Matching: Generalization Does Not Arise from Target Stochasticity (NeurIPS2025) – 学習中にターゲットのデータが変化することと汎化との関係性を調査 • Selective Underfitting in Diffusion Models (submitting to ICLR2026?) – 生成時のスコア関数が外挿によって予測されることで汎化が起きるという考察 • How Diffusion Models Memorize (submitting to ICLR2026?) – 記憶したサンプルが生成される際,t=Tにおいて何が起こっているかの考察 3

4.

On the Closed-Form of Flow Matching: Generalization Does Not Arise from Target Stochasticity ※本セクションで使用する画像は全て本論文からの引用です 4

5.

Flow Matching 𝑥𝑥 0 = 𝑥𝑥0 • 微分方程式 � 𝑥𝑥(𝑡𝑡) ̇ = 𝑢𝑢(𝑥𝑥(𝑡𝑡), 𝑡𝑡) • 条件付き確率パス 𝑝𝑝 ⋅ 𝑧𝑧 = 𝑥𝑥1 , 𝑡𝑡 = 𝒩𝒩 𝑡𝑡𝑥𝑥1 , 1 − 𝑡𝑡 2 𝐼𝐼 • 条件付きベクトル場 𝑢𝑢𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑥𝑥, 𝑧𝑧 = 𝑥𝑥1 , 𝑡𝑡 = 𝑥𝑥1 −𝑥𝑥 1−𝑡𝑡 • 周辺ベクトル場 𝑢𝑢∗ 𝑥𝑥, 𝑡𝑡 = 𝔼𝔼𝑧𝑧|𝑥𝑥,𝑡𝑡 𝑢𝑢𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑥𝑥, 𝑧𝑧, 𝑡𝑡 • 目的関数 5

6.

Flow Matching • 1 𝑛𝑛 𝑝𝑝̂ 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = ∑𝑖𝑖=1 𝛿𝛿𝑥𝑥 𝑖𝑖 : 有限個のサンプルで構成される経験分布 𝑛𝑛 • このとき,真の(周辺)ベクトル場は解析解をもつ • 𝑝𝑝, 𝑢𝑢𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 の定義式を代入すると, 6

7.

汎化と確率性 • 𝑢𝑢∗ に従って微分方程式を解くと,経験分布に含まれるサンプルしか生成されない • したがって,FMの目的関数で学習しても,汎化は起こらないはず • 実際にはCFMの目的関数で学習し,汎化も起きている • FMの目的関数とCFMの目的関数の違いは,学習ターゲットが確率的かどうか • ターゲットの確率性が汎化を引き起こすのか? そうでないなら,何が汎化に繋がっているのか? 7

8.

実験1 • 𝑢𝑢∗ , 𝑢𝑢𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 の関係性を調査 • 𝑥𝑥1 , 𝑥𝑥0 をそれぞれサンプリングし, 𝑥𝑥𝑡𝑡 = 𝑡𝑡𝑥𝑥1 + 1 − 𝑡𝑡 𝑥𝑥0 と定めた時の, 𝑢𝑢∗ , 𝑢𝑢𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 のコサイン類似度のヒストグラム →特にノイズが外れていくと,両者のコサイン類似度はほぼ1になる • 𝑝𝑝 𝑧𝑧 𝑥𝑥, 𝑡𝑡 (= 𝑝𝑝𝑡𝑡 𝑥𝑥1 𝑥𝑥𝑡𝑡 )はほぼ0か1になる 8

9.

実験2 • 周辺ベクトル場と条件付きベクトル場の一致性は,データの次元が大きくなるほ どに強くなる • (Imagenetteをリサイズして実験) 9

10.

実験3 • データセットサイズを変えて,FMの目的関数(周辺ベクトル場)で学習 • データセットサイズが増えるにつれて, – 学習lossは大きくなる – FIDは,~2000までは減少し,その後増大,また減少する – 最近傍の学習サンプルとの距離は大きくなる 記憶 汎化 • 非確率的な周辺ベクトル場で学習しても汎化は起こり,lossの増大も起こる 10

11.

実験4 • • • • 時刻 τ まで真の周辺ベクトル場 𝑢𝑢∗ で生成し,その後は学習した 𝑢𝑢𝜃𝜃 で生成 つまり t ∈ [0, τ] で学習lossが0だとした時に汎化が起こるか?を調査 τ = 0.3 を超えると,生成サンプルは学習サンプルに一致し始める 𝒕𝒕 < 𝟎𝟎. 𝟑𝟑 でlossが0にならないことが汎化を引き起こしている 11

12.

Selective Underfitting in Diffusion Models ※本セクションで使用する画像は全て本論文からの引用です 12

13.

Diffusion Models ※以降diffusion modelsの定式化を用いる • Denoising Score Matchingの目的関数 • 経験分布に対しては最適解が存在する • 「データ空間のすべての領域で,𝑠𝑠𝜃𝜃 が𝑠𝑠∗ を十分近似できている」が従来の見解 (=global underfitting) 13

14.

実験 • Classifier-free guidanceを考える • 𝑠𝑠𝜃𝜃 と𝑠𝑠∗ に対して,条件付スコアと条件無しスコアの差を計算する → 𝑠𝑠∗ はほとんど0になるが, 𝑠𝑠𝜃𝜃 はそうではない すなわち, 𝑠𝑠𝜃𝜃 は𝑠𝑠∗ を十分近似出来ている訳ではない 14

15.

Selective underfitting • 「ある限られた領域でのみ𝑠𝑠𝜃𝜃 が𝑠𝑠∗ を近似できていて,推論時にはそれらの領域に よる外挿によって予測されている」(=Selective underfitting)という見解 – 条件によって外挿に寄与する領域が変わるので,CFGの実験を説明できる 15

16.

領域の範囲の計算 • 学習された領域について,次の命題が成り立つ 𝑧𝑧𝑡𝑡 = 𝛼𝛼𝑡𝑡 𝑥𝑥 𝑖𝑖 + 𝜎𝜎𝑡𝑡 𝜖𝜖 のとき,𝔼𝔼 𝑧𝑧𝑡𝑡 − 𝛼𝛼𝑡𝑡 𝑥𝑥 𝑖𝑖 = 𝜎𝜎𝑡𝑡 𝑑𝑑 • さらに, でもあるので,各データを中心と する領域は重ならないイメージ 16

17.

実験3.3 • 生成時に,学習された領域がどれだけ支配的か調査 • 𝑟𝑟∗ が1に近ければ,ある学習サンプル 𝑥𝑥 𝑖𝑖 とノイズ ϵ を 用いて 𝑥𝑥𝑡𝑡 = 𝛼𝛼𝑡𝑡 𝑥𝑥 𝑖𝑖 + 𝜎𝜎𝑡𝑡 𝜖𝜖 と表せる • 実際には,生成サンプルはすぐに学習領域を外れる →生成時には外挿が支配的 17

18.

実験4.1 • モデルサイズを大きくしていくと, – 学習された領域では,解析解の近似性能が高くなっていく – 外挿領域では,むしろ解析解から離れていく (underfittingが進む) 18

19.

実験4.2 • ある時刻 𝑡𝑡 でノイズをかけたサンプルから生成を行う • 𝑡𝑡 = 0.8 よりもデータに近い時刻でノイズをかけると,元のサンプルを生成する →学習領域内では,解析解をほぼ完全に近似できる • 学習された領域同士が重ならなくなるのも 𝑡𝑡 = 0.8 頃 学習された領域同士の重なり 19

20.

実験4.3 • データセットの規模と汎化の関係性を調査 • 𝑠𝑠∗ を計算するデータセットを固定し, 𝑧𝑧𝑡𝑡 を計算するデータセットを変える • データセットサイズを増やすと学習領域が支配的になり,記憶を助長する 20

21.

REPAとの関係性 • REPA: 従来のDSM lossに加えて,Diffusion Modelsの内部特徴量と,学習済み 認識モデルの内部特徴量が一致するような目的関数を加える • REPAを入れた場合と入れない場合で,スコア関数の変化を調査 • 学習領域よりも外挿領域の方が変化が大きい →REPAは外挿領域の振る舞いを変化させる 21

22.

外挿と学習の切り分け • 学習lossは,FID(生成性能)に関連し,学習領域のみから計算される • REPAのような手法もFIDを向上させるが,主に外挿領域に影響を及ぼす • そこで,生成性能について以下の関係式を定義する 22

23.

REPAと外挿関数 • 実際にREPAの係数を大きくすると,外挿関数の変化が観察される 23

24.

U-Net/Transformerと外挿関数 • U-NetとTransformerを比較すると,U-Net(CNN)の方が良い外挿関数といえる • 一方,学習lossはTransformerの方が減少しやすい傾向にある 24

25.

Perception-Aligned Training (PAT) • より良い外挿関数をどう設計するか? →ニューラルネットを知覚情報に整合させることが重要 (Perception-Aligned Training) 25

26.

PATの分類 • 知覚情報を反映したデータ空間に落とし込む (VAEの改良系) • 内部特徴量に知覚情報を反映させる (REPA系) • 知覚情報を反映した帰納バイアスを導入する (Convolution系) • これらは外挿関数の設計に関する工夫であり,学習領域に関する工夫も別途必要 26

27.

• 1本目と2本目の論文の関係性 • ノイズに近い時刻では,複数の学習領域が重なっている ここから外挿領域に抜け出せることが汎化の鍵 • ここからどう外挿領域に移るかについては述べられていない 27

28.

How Diffusion Models Memorize ※本セクションで使用する画像は全て本論文からの引用です 28

29.

定式化のおさらい • 条件付き確率パス • あるサンプルから平均データの予測 • CFG 29

30.

記憶と学習loss • 従来の考え方は,「学習lossが小さすぎると記憶が起こる」 • CFGを使わなければ,確かに学習loss(横軸)が小さいと,記憶度(色)も高い • しかしCFG込みだとどうなるか? 30

31.

記憶と学習loss • CFGを使うと,学習lossと記憶度の関連性は薄まる • 特にノイズに近いところ(d)では,記憶度が高いと学習lossも大きい • 学習lossよりも,コサイン類似度(縦軸)の方が関連性を説明できる 31

32.

条件とコサイン類似度 • t=T のところで,条件あり/なしの場合の コサイン類似度と記憶を調査 • A: (a,b)の結果から,条件のあり/なしに関わらず, モデル出力は入力𝑥𝑥𝑇𝑇 に比例する • B: (c)の結果から,条件なしの場合は,学習サンプル𝑥𝑥には類似しない • C: (d)の結果から,条件ありの場合は,学習サンプル𝑥𝑥にも類似し,記憶している 方がより類似する 32

33.

類似度からの定式化 • モデル出力は, – A: x_Tに類似する – B: 条件なしだと学習サンプルxには類似しない – C: 条件ありだと学習サンプルxにも類似し,類似具合は記憶に関係する • これを定式化してみると, • と近似して,CFGの式に代入すると, • これを平均予測の式に代入すると, (Overestimation) 33

34.

Overestimationの可視化 • 記憶度が高い生成データについて可視化してみても,そうなっている 34

35.

Overestimationで何が起こる? • 記憶度が高い(=Overestimationしている)と,生成の早い段階で多様性が減少 35

36.

Overestimationで何が起こる? • ある学習サンプル 𝑥𝑥 とそのプロンプトを持ってくる • あるノイズ 𝑥𝑥𝑇𝑇 とあるプロンプトで画像を生成 𝑡𝑡 𝑡𝑡 𝑡𝑡 𝑡𝑡 • 生成時の軌道 𝑥𝑥𝑡𝑡 に対して,𝑥𝑥𝑡𝑡 ≈ 𝑤𝑤0 𝑥𝑥 + 𝑤𝑤𝑇𝑇 𝑥𝑥𝑇𝑇 となるように𝑤𝑤0 , 𝑤𝑤T を最適化 𝑡𝑡 • 𝑤𝑤𝑇𝑇 はおおむね 1 − 𝛼𝛼𝑡𝑡 に一致 𝑡𝑡 • 𝑤𝑤0 は,記憶してない場合にはほぼ0 記憶してる場合には 𝛼𝛼𝑡𝑡 にほぼ一致 36

37.

Overestimationで何が起こる? • 先ほどは学習サンプル𝑥𝑥に対して最適化していたが,生成したデータ𝑥𝑥0 に対して 最適化 𝑡𝑡 • 𝑤𝑤0 が 𝛼𝛼𝑡𝑡 にほぼ一致 37

38.

Overestimationで何が起こる? • CFGを適用すると,記憶している場合の挙動が変化する • 時刻が前倒しされて生成されるようになる →𝑥𝑥𝑇𝑇 のノイズ性がすぐなくなってしまうため,多様性が落ちる 38