[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models

>100 Views

April 15, 22

deep learning

スライド概要

2022/04/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.8K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.8K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.9K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.1K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.7K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

Transframer: Arbitrary Generative Models Frame Prediction with Naruya Kondo (Digital Nature Group M2) 1

書誌情報 ● Transframer: Arbitrary Frame Prediction with Generative Models ○ Arxiv (Submitted on 2022 3/18), ECCV 2022? ○ 著者：DeepMind ■ Charlie Nash, João Carreira, Jacob Walker, Iain Barr, Andrew Jaegle, Mateusz Malinowski, Peter Battaglia ○ プロジェクトページ ● ひとことで言うと ○ 映像予測のSoTA(レベル) ○ novel view synthesis、optical flow、classification、detection、segmentation、 video interpolation、depth estimation、長期(30秒)の予測もできる ○ 「マルチタスクなコンピュータービジョンモデルの実現に役立つだろう」 ○ (DCTransformer (ICML 2021, DeepMind) が良い) 2

https://sites.google.com/view/transframer

背景 Visionタスクは基本的に、「コンテクストが与えられ、ターゲットを予測」幅広いVisionタスクに使えるモデルが作りたい ⇨ 全てを自己回帰で解く少し似たモチベーションに NÜWA (microsoft) があるけど、NUWAは事前学習モデルで、transframerはデータが与えられてタスクを解くという普通の問題設定 > NÜWA is a unified multimodal pre-trained model that can generate new or manipulate existing visual data (i.e., images and videos) for 8 visual synthesis tasks (as shown above). 3

https://github.com/microsoft/NUWA

前提知識：DCTransformer • 画像生成、着色、高解像度化、画像補間などができる自己回帰モデル • VQ-VAEより幅広く使える(?) 4

DCT image representation 基底 (10x10の場合) 1. 2. 3. 4. 5. 画像をRGB->YUVに変換 (輝Y度+青との差分+赤との差分) 8x8のパッチで分割 (パッチサイズB) 2Dの離散コサイン変換 (今回は8x8の基底) 各基底の係数を一列 (64チャンネル) に並べる全パッチ分合わせて、H/B, W/B, 3B**2 のDCT-Imageにする ● ● ● “離散コサイン変換とは、離散フーリエ変換を実部のみで行う方法を応用して、効率的に離散フーリエ変換を行うための方法のことです。” UとVの色は情報量少ないので、2x2 のダウンサンプリングする係数は種は数の低い基底から順にジグザグにとる (zigzag glatten) 5

DCT image representation ● ● ● Lは、画像の情報量や保存したい情報量によって変動チャンネルの順番は、基本ジグザグだけどYUVをたまに混ぜる。 Yをn1 ch⇨Uをn1 ch⇨Vをn1ch⇨Yをn2 ch⇨Uをn2 ch⇨Vをn2ch⇨ という感じ (なのでチャンネルのグラフがガタガタしてる) ピクセル位置の順番はラスタースキャン 6. DCT-imageを、係数0付近は消して、チャンネルの最初から、ピクセル位置の最初から順に、d=(channel, position, value) × L の系列データ (DCT sequence)に変換する 7. 頭からL’個のdを使って、図gみたいに復元できる 6

DCTransformer • 途中までのDCT sequenceを入力に、残りのDCT sequenceを予測 • 目的関数 • • • ① 次に注目するチャンネルはどれか (基本単調増加?) ② 次に注目する場所はどこか (基本単調増加?) ③ そのチャンネル、その場所の値は？ • 目的関数はTransframerでも変わらない 7

提案手法：Transframer • DCTransformerのエンコーダーだけ拡張 – 複数の画像で条件付けができるように 8

提案手法：Transframer 逐次的に当てていく方法 1. DCT-imageを入力にするMulti-Frame U-Netで、見えない部分も含めてピクセル(パッチ)レベルのembeddingを得る 2. 見えない部分のDCT-sequence (channel, position, value) を、U-Netの出力にcross 9 attentionしながら逐次的に当てていく

10.

提案手法：Transframer • 画像単位でNF-Block + フレーム間の self-attentionに通して次の解像度へ • NF-ResNet – SE-ResNeXt-D (?) + Adaptive Gradient Clipping (AGC) – 学習時間が8.7倍高速 • 複数解像度でU-Net blockを用いて encode、真逆のモデルでdecode UNet encoderの、ある解像度から次の解像度への1ブロック 10

11.

(工夫) Residual DCT representations • DCT-imageの差分のみに注目することで、学習効率が向上 – (特に背景固定のデータセット) 11

12.

実験 @video modeling 2019 2021 2020 2020 2021 ● ● ● FitVid: Overfitting in Pixel-Level Video Prediction (2021) ViTは、vision transformerで Video Transformerとは違う「BAIRはあんま良いデータセットじゃないよね、テストデータ少ないし」 12

13.

14.

実験 @novel view synthesis • Transframerはすべてのシーンを１つのモデルで学習 (NeRFと違う) • PSNR・SSIMは負け、LPIPS・FIDは勝ち – 正確な角度は当てられないけど、データセットらしい画像を出力できる 14

15.

実験 @novel view synthesis ● ● Pixel NeRF (CVPR 2021) よりかなりきれいコンテクストは2枚で割とそれっぽい (1枚では、椅子の足のクロスが消えたり) ○ (記憶している物体に影響された物を出力してしまうことはあるっぽい) 15

16.

17.

実験 @others ● 1024クラス分類は、白い点の位置(32x32に 256x256の画像を分割)で出力 ● 長期予測(30秒750フレーム)では、1fpsで生成した後に補完 17

18.

まとめと感想 • 映像予測のSoTA(レベル) • novel view synthesis、optical flow、classification、detection、segmentation、video interpolation、depth estimation、長期(30秒)の予測もできる • 「マルチタスクなコンピュータービジョンモデルの実現に役立つだろう」 • (DCTransformer (周波数領域への変換) の良さは雰囲気でしかわからず...) – 並進とかに強くなる? 18