Rethinking Image Super Resolution from Long-Tailed Distribution Learning

1.7K Views

April 25, 24

#超解像 #画像処理 #深層学習 #Long-tailed Distribution Learning #CVPR2023

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Rethinking Image Super Resolution from Long-Tailed Distribution Learning Perspective Presenter: Kazutoshi Akita (Toyota Technological Institute, Intelligent Information Media Lab) http://deeplearning.jp/ 1

http://deeplearning.jp/

論文情報 • 論文名： Rethinking Image Super Resolution From Long-Tailed Distribution Learning Perspective (CVPR2023) • 著者：Yuanbiao Gou1, Peng Hu1, Jiancheng Lv1, Hongyuan Zhu2, Xi Peng1 – 1. College of Computer Science, Sichuan University, China – 2. Institute for Infocomm Research (I2R), A*STAR, Singapore • URL: https://openaccess.thecvf.com/content/CVPR2023/html/Gou_Rethinking_Image_Super_Resolution_From_Long-Tailed_Distribution_Learning_Perspective_CVPR_2023_paper.html ※本資料の図は，言及がなければ自作あるいは上記論文からの引用 2

https://openaccess.thecvf.com/content/CVPR2023/html/Gou_Rethinking_Image_Super_Resolution_From_Long-Tailed_Distribution_Learning_Perspective_CVPR_2023_paper.html

前提知識①：超解像 • 超解像（Super Resolution, SR） – 画像を綺麗に拡大する技術超解像 (SRNet) 低解像画像（LR画像）超解像画像（SR画像） 3

前提知識①：超解像 • 高周波領域の再構成が課題 4

前提知識①：超解像 • 高周波領域の強調を行う従来手法が多数 – PCL [arXiv, 2021] • Contrastive learning（HRをpositive，LRをnegative） – SPSR [CVPR, 2020] • 画像のgradient mapを用いて明示的に高周波領域を強調・学習 – WDST [ICCV, 2019] • Wavelet変換によって低周波・高周波領域を分離して予測 – SA [BMVC, 2021] • 高周波領域を含むパッチを重点サンプリングして学習 5

前提知識②：Long-tailed Distribution Learning • あるクラスは大量の学習サンプルがある（Head class）が，別のあるクラスは学習サンプルが少ない（Tail class） – モデルの学習がHead classに偏り， Tail classの分類性能が低下する 6 引用：Y. Zhang, “Deep Long-Tailed Learning: A Survey”, arXiv, 2019

前提知識②：Long-tailed Distribution Learning • Tail-classについても適切に学習する手法が多数 – SMOTE • Tail-classのサンプルを線形補間で作る – UNSAM • サンプルのサンプリング率を調整する – Class-Balanced Loss • 各クラスのサンプル数に応じてLossを重みづけ – Focal Loss • 十分に学習されたサンプルのLossを下げる重みづけ 7

提案手法 • 超解像をLong-tailed Distribution Learningタスクとして解釈 • 高周波ピクセルをtail classのように扱い，学習を促進 8

提案手法 • tail-classをどのようにして重みづけするか ℒ𝑖 = |𝑦𝑖 − 𝑓(𝑥𝑖 )| – 低周波 or 高周波のラベルが存在しない • Class-balanced Loss系のような重みづけができない • 以下2つの重みづけ方法を提案 – Structural Prior – Learnable Structural Prior 9

10.

提案手法 • Structural Prior – LRをBicubic補完で拡大したものとHRの差分が大きいピクセルを重みづけ 𝑦𝑠𝑝 = |𝑦 − 𝑓𝐵𝐼 𝑥 | – 以下のようなイメージでtail-classに重みづけ ℒ 𝑖 = 𝑦𝑠𝑝 |𝑦𝑖 − 𝑓(𝑥𝑖 )| • 実際はNormalize等を行う（後述） • ダメな点 – 大雑把なラベルでしかない – 学習の過程で常に固定された重みづけをしている 10

11.

提案手法 • Learnable Structural Prior – ネットワーク出力が予測失敗している領域を重みづけ 𝑦𝑙𝑝 = |𝑦 − 𝑓 𝑥 | • 𝑦𝑠𝑝と異なり，ネットワークの学習中に動的に重みづけされる – Focal Lossと類似 – 同様のイメージで重みづけに使う ℒ 𝑖 = 𝑦𝑙𝑝 |𝑦𝑖 − 𝑓(𝑥𝑖 )| 11

12.

提案手法 • 2つのStructural PriorをただLossにかけ合わせるだけでは， – 以下の関数𝑊によって，structural Priorを重みに変換 𝑊 𝑧; 𝛼, 𝛾 = α ∙ exp 𝛾 ∙ 𝑔 𝑧 𝑔 𝑧 = 𝑧 − min(𝑧) max 𝑧 − min(𝑧) • 最終的なLoss（Focal Pixel Learning）は以下の通り ℒ 𝑖 = 𝑊 𝑦𝑠𝑝; 𝛼𝑠𝑝 , 𝛾𝑠𝑝 𝑖 × 𝑊 𝑦𝑙𝑝 ; 𝛼𝑙𝑝 , 𝛾𝑙𝑝 𝑖 × |𝑦𝑖 − 𝑓(𝑥)𝑖 | 12

13.

実験結果 • 既存手法にFPLを加えることで性能向上 13

14.

実験結果 • 𝛾𝑠𝑝, 𝛾𝑙𝑝 が共に0のとき性能が大きく低下 • それ以外の状態では大きな性能変化はない 14

15.

実験結果 • 定性評価 15

16.

まとめ • SRタスクをLong-tailed Distribution Learningとして解釈 – 高周波ピクセルは出現頻度が低い • tail-classへの重みづけ方法を2つ提案 – Structural Prior – Learnable Structural Prior • 所感 – あまりにもシンプル – 既存のSRモデルに容易に適用可能で一定の効果が見込めるため，汎用性の点で評価できる 16