[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior

Blind Video Temporal Consistency via Deep Video Prior 岩隈啓悟 / Keigo Iwakuma 1

タイトル：Blind Video Temporal Consistecy via Deep Video Prior 著者：Chenyang Lei, Yazhou Xing, Qifeng Chen 所属：The Hong Kong University of Science and Technology (HKUST) 書誌情報：NeurIPS 2020 プロジェクト：https://chenyanglei.github.io/DVP/index.html 論文：https://arxiv.org/abs/2010.11838 実装：https://github.com/ChenyangLEI/deep-video-prior (TensorFlow 1) 2

3.

タイトル：Blind Video Temporal Consistecy via Deep Video Prior 目次： 1. 2. 3. 4. 5. 6. 概要タスク関連研究提案手法実験・結果まとめ・感想 3

4.

１．概要動画に対して画像処理を適用する場合、フレームごとに処理を行うことによって動画の持つ時間方向への一貫性（Temporal Consistency）が失われてしまうことがある本研究ではCNNが持つDeep Image Priorに着目し、これを時間方向への一貫性を保つための正則化として利用することで、従来に比べてシンプルな定式化でかつより客観的にも主観的にも優れた結果が得られた 4

5.

２.タスク

6.

２．タスク Blind Video Temporal Consistency：動画の各フレームに対して個別に画像処理を行うことで時間的な一貫性が失われる問題（flickeringなど）をどうにかしたい背景（モチベーション）：スタイル変換や固有画像分解など様々な画像処理が成果を挙げているしかし、それをそのまま動画に拡張すると上記のような問題が生じるまた、処理ごとに特有の拡張方法を考えるのは大変で時間もかかる ⇒ 処理内容はブラックボックスとして（＝blind）これを解決したい 6

7.

２．タスク Blind Video Temporal Consistency：オリジナルフレーム（一貫性がある） Goal 最終的なフレーム画像処理（処理内容を残しつつ一貫性を持たせる）処理されたフレーム（一貫性がない） 7

8.

２．タスク Blind Video Temporal Consistency：入力オリジナルフレーム（一貫性がある） Goal（出力）最終的なフレーム Blind 画像処理入力（処理内容を残しつつ一貫性を持たせる）処理されたフレーム（一貫性がない） 8

9.

２．タスク Blind Video Temporal Consistency：入力時間的な一貫性を持たせるための損失または正則化オリジナルフレーム（一貫性がある） Goal（出力）最終的なフレーム Blind 画像処理入力（処理内容を残しつつ一貫性を持たせる）処理されたフレーム（一貫性がない）処理内容を保つための損失または正則化 9

10.

３.関連研究

11.

３．関連研究１ Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.) 最終的なフレームを求めるパラメータとした、 Scene Dynamics（処理内容）と Temporal Consistency（一貫性）の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く最初のフレームはレファレンスとして、２番目の出力から順に解いていく（結果を伝播させる） 11

12.

３．関連研究１ Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.) 最終的なフレームを求めるパラメータとした、 Scene Dynamics（処理内容）と Temporal Consistency（一貫性）の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く勾配（エッジ）情報を近づけることで処理内容を保持させるワープにはオリジナルのoptical flow or PatchMatchの情報を利用し、連続するフレームの一貫性を持たせるそもそもオリジナルのワープが上手くいかない場合はその重みを小さくする（※V = I）最初のフレームはレファレンスとして、２番目の出力から順に解いていく（結果を伝播させる） 12

13.

３．関連研究１ Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.) 最終的なフレームを求めるパラメータとした、 Scene Dynamics（処理内容）と Temporal Consistency（一貫性）の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く勾配（エッジ）情報を近づけることで処理内容を保持させるワープにはオリジナルのoptical flow or PatchMatchの情報を利用し、連続するフレームの一貫性を持たせる短所： ● 勾配情報だけでは複雑な処理内容を保持させることが難しい（例：画風のスタイル変換） ● 結果を伝播させる過程で誤差が積もるため徐々に処理内容が薄れていく 13

14.

３．関連研究２ Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) 処理内容と一貫性に関する損失を用いて直接最終的なフレームを出力するモデルを作る 14

15.

３．関連研究２ Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) テスト時はRNNを用いて逐次的に４枚の入力から最終的なフレーム（の残差）を出力する前の論文と異なり最適化に長期的な一貫性も考慮した損失を用意 RNNを利用することでどんな長さの動画でも構造的に時系列情報を扱える 15

16.

３．関連研究２ Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) モデルは以下のような、 skip connectionとResBlockとConv LSTMを利用したFullConvNet オリジナルと最終的なフレームは見た目が大きく異なる場合があるため skip connectionは設けない出力フレームは隣同士ほとんど同じなので細かい差異に注意が向くように残差を出力させている 16

17.

３．関連研究２ Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) 一貫性に関する損失は、前の出力フレームをワープさせたものとの L1損失を使用オリジナルフレームのoptical flow：短期的な一貫性の損失：長期的な一貫性の損失：（最大で10フレーム間） visibility mask：（オリジナルフレームのワープがずれている部分は小さくなる） T：総フレーム数、N：総ピクセル数オリジナルフレームのoptical flow を利用して、前の出力フレームをワープさせたもの 17

18.

３．関連研究２ Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) 処理内容に関する損失は、処理されたフレームとの特徴マップでの L1損失を使用処理内容の損失： Content Perceptual Loss VGG19の l 層目の特徴マップ（’relu4-3’を使用）最終的な損失： T：総フレーム数、N：総ピクセル数 18

19.

３．関連研究２ Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.) 短所： ● 訓練データを準備する必要がある ● 逐次的に最終的なフレームを求める以上、誤差が積もりやすく処理内容が薄れやすい長所： ● 推論時の動作は速い（ 418FPS on Nvidia Titan X with a resolution of 1280x720） ● シングルモデルで学習時になかった画像処理パターンにも対応可能 19

20.

３．関連研究３ Deep Image Prior (CVPR 2018, Ulyanov) CNNの構造自体が低次元な統計量から学習しやすいという特性を利用して、画像のノイズ除去、補完、超解像など様々なタスクを行えることを実験的に示した論文何らかの値で固定した画像（Input） JPEG圧縮で劣化した画像（Target） CNN 損失最小化 Inputを通したときの出力とTargetとの損失（MSEなど）が小さくなるように、ランダムに初期化したCNNのパラメータを学習していくと劣化部分のような局所的な部分より大域的な部分を先に復元していくのがわかる、 CNNが持つこの正則化効果をDeep Image Priorとしている 20

21.

４.提案手法

22.

４．提案手法 Blind Video Temporal Consistency via Deep Video Prior ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ１で入力し、出力が処理されたフレームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共通する部分（時間方向に一貫している部分）が先に学習され、処理内容を保ちつつ一貫性を持ったフレームが手に入るのではないかという提案以下の最適化でCNNのパラメータを学習し、特定のepochs（25−50程度）で学習をとめるそのときのCNN出力を最終的なフレームとして使用する初期化した CNN 画像処理処理内容の損失のみ、明示的に一貫性については設けない CNNを使うことで暗黙的に課される正則化のことを論文ではDeep Video Priorと呼んでいる 22

23.

４．提案手法 Blind Video Temporal Consistency via Deep Video Prior ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ１で入力し、出力が処理されたフレームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共通する部分（時間方向に一貫している部分）が先に学習され、処理内容を保ちつつ一貫性を持ったフレームが手に入るのではないかという提案 ※ 著者らの動機に対する自分の解釈としては初期化した CNN 画像処理・学習初期のCNNは似た入力に対して同じような出力をする（経験則）（最終的には似た入力に対してもその差異を復元できるようになる） ⇒ 似た入力に対しては共通部分から徐々に差異を学習していきそう（ Deep Image Prior）・動画は基本的には連続していて時間方向に一貫性があり各フレームが似ている ⇒ 一連の動画フレームに対しては上記の経験則が当てはまりそうということかなと思っています 23

24.

４．提案手法 Blind Video Temporal Consistency via Deep Video Prior ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ１で入力し、出力が処理されたフレームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に共通する部分（時間方向に一貫している部分）が先に学習できて処理内容を保ちつつ一貫性を持ったフレームが手に入るのではないかという提案従来手法処理内容一貫性前のフレームの結果に依存する ⇒長期の一貫性を保つのが難しい 24

25.

４．提案手法 Blind Video Temporal Consistency via Deep Video Prior ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ１で入力し、出力が処理されたフレームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に共通する部分（時間方向に一貫している部分）が先に学習できて処理内容を保ちつつ一貫性を持ったフレームが手に入るのではないかという提案提案手法処理内容一貫性 Deep Video Priorによる暗黙的な一貫性に関する正則化 ⇒前フレームの結果に依存しない 25

26.

４．提案手法２種類のTemporal Inconsistencyについて ● Unimodal inconsistency：flickeringのような単一モードの中で生じる比較的小さな不安定さ ● Multimodal inconsistency：colorizationタスク（gray=>rgb）で対象の色がフレームごとに変わってしまうようなタスクの不良設定によって生じる比較的大きな不安定さ 26

27.

４．提案手法２種類のTemporal Inconsistencyに対するDeep Video Prior トイ実験：ある連続する画像にノイズを加えて 2種類のTemporal Inconsistencyを用意する ⇒ Multimodal incosistencyに関しては適切な処理内容を保てないまま一貫性も失ってしまう Unimodal Inconsistency Multimodal Inconsistency ⇒ 上手く行く！ ⇒ 上手くいかない Iteratively Reweighted Trainingの提案 Multimodal Inconsistency ⇒ 上手く行く！ 27

28.

４．提案手法 Multimodal Inconsistencyに対するIteratively Reweighted Training 1つのメインモードを選んでくるような confidence mapと、そのメインモードとその他のモードに対応する 2枚の画像を出力するモデルを設計し、以下の最適化問題でパラメータを学習するように変更する Confidence map：出力のメインモード出力のその他のモード単一モードしか持たない対象に対しては閾値によって処理されたフレームと出力のメインモードが近づくようにする最適化問題： confidence mapの値によってそれぞれのモードと近い部分がより近づくようになる（メインモードはいずれかのモードに近づく、実際は最初に渡す学習フレームがメインモードとなる） 28

29.

５.実験・結果

30.

５．実験・結果実験の設定： Architecture: U-Net Loss: Perceptual Loss IRT distance: L1 Dataset: DAIVS, the test set collected by Bonneel et al. Optimizer: Adam, lr=0.0001 for all task Epochs: 25 (Dehazing, spatial white balancing, and image enhancement) or 50 (Intrinsic decomposition, colorization, style transfer, and CycleGAN) Batchsize: 1 30

31.

５．実験・結果 Multimodal タスク： Multimodal 31

32.

５．実験・結果評価指標：１．Temporal Inconsistency … 最終的なフレームをoptical flowでワープしたときのL1誤差 ※Occlusion判定された部分は評価から外す、各フレームは最初と隣合うフレームのペアで評価が行われる２．Performance degradation (data fidelity) … 処理されたフレームと最終的なフレームの平均PSNR 比較手法：関連手法１（表記 [3]）、関連手法２（表記 [19]） 32

33.

５．実験・結果定量評価：関連手法１では一貫性はあるが処理内容が劣化している一方、関連手法２では処理内容を保てているが一貫性で低い評価となった提案手法はいずれの評価でも良い結果となっている 33

34.

５．実験・結果定性評価：左の図はMultimodal Inconsistencyが生じる場合の結果である、提案手法が処理内容、一貫性ともに最も維持できていることが分かる右のグラフは別タスクでのフレームごとの輝度平均であり、提案手法が安定していることが分かる 34

35.

５．実験・結果主観評価（User Study）：２０人の被験者に時間方向への一貫性と処理内容の類似度の両方で最も優れたものを選んでもらった結果が以下である（計 107動画を使用）ほとんどのタスクで提案手法が最も良く評価されており、特に Multimodal Inconsistencyが生じる場合で圧倒的な結果となった 35

36.

５．実験・結果 Ablation Study： 1. IRTの有無による最終的なフレームの比較である、定量評価である PSNRではIRTを使わない手法が上回ったが、見た目は明らかに IRTを使った方が良い 2. 異なるCNN Architectureを用いた最終的なフレームの比較である、それぞれで細かい差はあるが、どれも安定した結果が得られた 36

37.

５．実験・結果学習を止めるタイミング：動画の長さやモーションの大きさによってまちまちだが基本的には 25か50epochsでよい以下のようにTemporal inconsistencyがしばらく変動しないタイミングがあるため、タスクによって validation dataを用意しそのようなタイミングを選べばいいただし、flickeringなどを再現するにはそれより遥かに多い回数学習を行う必要があるのであまり慎重になる必要もない 37

38.

６．まとめ・感想まとめ ● ● 動画フレームを個々に画像処理することで時間方向の一貫性が失われてしまう問題に対して CNN の持つ特性を活かすことで暗黙的に正則化を行うことができ、従来では難しかったケースに対してもシンプルな方法で優れた結果を示せた学習データが必要ない一方で、テスト時に学習を行う必要があり実用上のボトルネックとなっている感想 ● ● ● ● シンプルなアイデアで従来より大幅な改善が出来ている印象ですごかった一方で、正解となるデータがなくタスクに対する良い評価指標がないのが難しいと感じた今の所見え方に関しての一貫性を重視している印象だが、後段のタスクのための画像処理などに対してその用途での一貫性が保てるようになると応用が広そうだなと思った。 multi-camera consistencyに対する効果もこれから検討したいとのことだったのですが、そういった動向にも期待したい 38

[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

【拡散モデル勉強会】Introduction to Diffusion Models

各ページのテキスト