【DL輪読会】FreeU: Free Lunch in Diffusion U-Net

2.7K Views

October 13, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] FreeU: Free Lunch in Diffusion U-Net Yuki SATO, University of Tsukuba http://deeplearning.jp/ 1

2.

書誌情報 FreeU: Free Lunch in Diffusion U-Net Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu S-Lab, Nanyang Technological University • 投稿先: arXiv • プロジェクトページ: https://chenyangsi.top/FreeU/ • 選定理由 – 学習済みU-Netに対する重みづけのみで生成品質向上を可能としており、解析方法含め Diffusion ModelだけでなくU-Netを用いたアルゴリズムに広く応用できる可能性があると考え たため ※出典が明記されていない限り限り本資料の図表は論文から引用する 2

3.

概要 • 著者らは拡散モデルにおけるノイズ除去において、U-Netのbackboneが主にノイズ除去を行い、 skip-connectionが高周波の特徴を保存しており、画像内の高周波成分を軽減することで生成画像の 品質が向上することを実験より明らかにした。 • 推論時、U-Netのbackboneとskip-connectionの特徴量に適切な重みを付けるのみで生成画像の品質向 上を達成した。 3

4.

DDPM • DDPM[1]ではサンプリングデータに対して𝑇回 ガウスノイズを付与してノイズを生成し (拡散過程)、 生成されたノイズをニューラルネットを用いて𝑇回ノイズ除去することで元のデータを復元する (逆拡散過程)。 • ノイズ除去のニューラルネットにはU-Net[2]が使用される。U-NetはEncoderの各層での出力を対応 するDecoder層に与え、backboneの特徴量と結合して入力とするモデルである。 [2]より引用 [1]より引用 1. 2. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851. Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18. Springer International Publishing, 2015. 4

5.

逆拡散過程におけるU-Netの挙動 • ノイズ除去の過程におけるU-Netの出力から低周波・高周波成分を可視化・分析した。 • その結果、低周波成分は滑らかに変化しているのに対し高周波成分は同じstep間でも比較的大きく 変化しており以下のような仮説を提唱した。 – 画像の大域的な構造や特徴(レイアウト,色合い)を表す低周波成分は画像全体の構成を担うため急激な変 化は品質低下につながる。 – 画像の細かい情報(エッジ,テクスチャ)を表す高周波成分はノイズに敏感であり、一部のノイズも高周波 成分として現れるため急激に変化する。 5

6.

逆拡散過程におけるU-Netの挙動 • U-Net内部での挙動を調査するためbackboneとskip-connectionの特徴量にそれぞれ異なる重みを付与 し生成画像の変化を調べた。 • backboneに対しては定数倍、skip-connectionの特徴量に対してはフーリエ変換後の周波数空間で定 数倍する。 6

7.

逆拡散過程におけるU-Netの挙動 • backboneに対する重み𝑏の変化は生成画像の品質に大きく影響している一方、skip-connectionに対す る重み𝑠は目に見える変化を引き起こさないことが分かった。 • 解析結果より著者らは以下のように考察した。 – 生成画像の周波数特性の解析より𝑏を大きくすることで画像の高周波成分の抑制につながり、これがノイ ズ除去効果を強め生成画像の品質向上につながったと考えられる。 – 一方、重み𝑠の変化が生成画像に与える影響は限定的であり、解析よりskip-connectionの特徴量は高周波成 分を多く含んでおりノイズ除去効果を低下させる可能性も考えられる。 7

8.

FreeU • 実験より著者らはbackboneの特徴量とskip-connectionの特徴量への重みづけを行う手法を提案した。 backboneの重みづけにより生成画像の品質を向上させ、skip-connectionへの重みづけで過度な平滑 化を抑制した。 • U-Netの𝑙番目のブロックにおけるbackboneからの特徴量を𝑥𝑙 , 𝑥𝑙 のチャンネル数を𝐶, 重みを𝑏𝑙 とす ると重みづけした特徴量𝑥𝑙′ は以下のように表せる。 𝑏𝑙 ∗ 𝑥𝑙,𝑖 if 𝑖 < 𝐶/2, ′ 𝑥𝑙,𝑖 = ൝ 𝑥𝑙,𝑖 otherwise • backboneへの重みづけは全てのチャンネルで行うと強い平滑化がかかるため半分のチャンネル数 に抑えている。 • U-Netの𝑙番目のブロックにおけるskip-connectionの特徴量をℎ𝑙 , 重みを𝑠𝑙 とすると重みづけした特徴 量ℎ′𝑙 は以下のように表せる。 𝑠𝑙 if 𝑟 < 𝑟𝑡ℎ𝑟𝑒𝑠ℎ, 1 otherwise • 𝛼𝑙,𝑖 はマスクであり、 𝑟𝑡ℎ𝑟𝑒𝑠ℎは閾値である。この処理により低周波成分にのみ重みづけを行ってい る。 • GitHubを見ている限り1 ≤ 𝑏 ≤ 1.6, 𝑠 ≤ 1で実装されている。 8 ℎ′𝑙,𝑖 = IFFT FFT ℎ𝑙,𝑖 ⊙ 𝛼𝑙,𝑖 , 𝛼𝑙,𝑖 𝑟 = ቊ

9.

実験設定 • 実験タスクごとに学習済みDiffusion Modelを用意し比較した。 3. 4. 5. 6. 7. Diffusion Model タスク 評価方法 Stable Diffusion[3] Text-to-image 35人に、画像品質とtextとの整合性を評価。 ModelScope[4] Text-to-video 人によって、動画品質とtextとの整合性を評価。 DreamBooth[5] 入力画像を反映させた 画像を事後学習により 生成 - ReVersion[6] 画像内の物体間の関係 を事後学習し画像を生 成 - Rerender[7] Zero-shot text guided video-to-video translation - Robin Rombach, et al. High-resolution image syn- ¨ thesis with latent diffusion models. In CVPR, 2022. Zhengxiong Luoet al. VideoFusion: Decomposed diffusion models for high-quality video generation. In CVPR, 2023. Nataniel Ruiz, et al. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In CVPR, 2023. Ziqi Huang, et al. ReVersion: Diffusion-based relation inversion from images. arXiv preprint arXiv:2303.13495, 2023. Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender a video: Zero-shot text-guided video-to-video translation. arXiv preprint arXiv:2306.07954, 2023. 9

10.

実験結果 • Stable Diffusionを用いた実験結果より、多くの画像でtextに忠実な画像をアーチファクトを小さく して生成できており、生成画像の品質向上に寄与していた。 • また、人による評価において、画像品質、textへの忠実性の両方でStable Diffusion単体を上回った。 10

11.

実験結果 • ModelScopeを用いた実験結果より、ModelScopeの出力をよりtextに忠実にしアーチファクトを軽減 したframeを生成できている。 • また、人による評価において動画品質、textへの忠実性の両方でModelScope単体を上回った。 11

12.

実験結果 • DreamBoothを用いた実験結果より、FreeUを加えることで画像内の不自然な描写が改善され自然な 画像を生成可能であった。 • ReVersionを用いた実験結果より、アーチファクトを軽減した自然な画像を生成可能であった。 • Rerenderを用いた実験でも同様にアーチファクトを軽減できており自然なframeを生成できていた。 12

13.

Ablation study • FreeUの効果の検証: Stable Diffusionを用いてFreeUの有無で周波数成分と特徴マップの変化を検証 した。結果よりFreeUにより高周波成分を抑制できており、可視化された特徴マップにおいても鮮 明に物体の構造が含まれていた。 • FreeUにおける各重みの効果の検証: Stable Diffusionを用いて検証した結果より、backboneへの重み づけによりtextに沿った自然な画像を生成する一方でテクスチャの過度な平滑化がみられる。これ に対してskip-connectionへの重みづけにより低周波成分を削減することでより自然な画像が得れら れた。 13

14.

まとめ • FreeUは推論時にU-Netの特徴量に重みづけするシンプルな手法であり、計算コストを増やすこと なく効果的に生成画像の品質を向上させることができた。 • 本研究の実験より、Diffusion ModelにおけるU-Netはbackboneの特徴量がノイズ除去に寄与しskipconnectionの特徴量が高周波特徴量をDecoderに伝達する役割を担っており、学習の過程でbackbone の情報が失われていることが分かった。 • FreeUはシンプルな手法であるため様々なDiffusion Modelとその下流タスクで使用可能であり、生 成データの品質を向上させる汎用的な手法である。 14

15.

感想 • 学習済みモデルに対する手法であるため応用が容易。 – Hugging faceでの実装も公開されており既に多くの生成モデルで使用されている。 • FreeUの実験結果よりskip-connectionが生成画像に与える影響が小さく有効に利用できるように学 習できないか。 – 学習可能パラメータを設定してその値をskip-connectionにかけるなど。 • この研究ではDiffusion Modelを対象にしているがU-Netを用いる多くの研究で同様の解析・実験が 可能であると考えられる。 – 医療分野における深層学習の研究の多くはU-Netを使用しており、セグメンテーション等で同様の解析を 行いどのような結果となるか。 15