[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models

>100 Views

April 15, 22

スライド概要

2022/04/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Transframer: Arbitrary Generative Models Frame Prediction with Naruya Kondo (Digital Nature Group M2) 1

2.

書誌情報 ● Transframer: Arbitrary Frame Prediction with Generative Models ○ Arxiv (Submitted on 2022 3/18), ECCV 2022? ○ 著者:DeepMind ■ Charlie Nash, João Carreira, Jacob Walker, Iain Barr, Andrew Jaegle, Mateusz Malinowski, Peter Battaglia ○ プロジェクトページ ● ひとことで言うと ○ 映像予測のSoTA(レベル) ○ novel view synthesis、optical flow、classification、detection、segmentation、 video interpolation、depth estimation、長期(30秒)の予測もできる ○ 「マルチタスクなコンピュータービジョンモデルの実現に役立つだろう」 ○ (DCTransformer (ICML 2021, DeepMind) が良い) 2

3.

背景 Visionタスクは基本的に、 「コンテクストが与えられ、ターゲットを予測」 幅広いVisionタスクに使えるモデルが作りたい ⇨ 全てを自己回帰で解く 少し似たモチベーションに NÜWA (microsoft) がある けど、NUWAは事前学習モデルで、transframerは データが与えられてタスクを解くという普通の問題設 定 > NÜWA is a unified multimodal pre-trained model that can generate new or manipulate existing visual data (i.e., images and videos) for 8 visual synthesis tasks (as shown above). 3

4.

前提知識:DCTransformer • 画像生成、着色、高解像度化、画像補間などができる自己回帰モデル • VQ-VAEより幅広く使える(?) 4

5.

DCT image representation 基底 (10x10の場合) 1. 2. 3. 4. 5. 画像をRGB->YUVに変換 (輝Y度+青との差分+赤との差分) 8x8のパッチで分割 (パッチサイズB) 2Dの離散コサイン変換 (今回は8x8の基底) 各基底の係数を一列 (64チャンネル) に並べる 全パッチ分合わせて、H/B, W/B, 3B**2 のDCT-Imageにする ● ● ● “離散コサイン変換とは、離散フーリエ 変換を実部のみで行う方法を応用し て、効率的に離散フーリエ変換を行う ための方法のことです。” UとVの色は情報量少ないので、2x2 のダウンサンプリングする 係数は種は数の低い基底から順にジ グザグにとる (zigzag glatten) 5

6.

DCT image representation ● ● ● Lは、画像の情報量や保存したい 情報量によって変動 チャンネルの順番は、基本ジグザグだ けどYUVをたまに混ぜる。 Yをn1 ch⇨Uをn1 ch⇨Vをn1ch⇨Yをn2 ch⇨Uをn2 ch⇨Vをn2ch⇨ という感じ (なのでチャンネルのグラフがガタガタ してる) ピクセル位置の順番は ラスタースキャン 6. DCT-imageを、係数0付近は消して、チャンネルの最初から、ピクセル位置の最初から 順に、d=(channel, position, value) × L の系列データ (DCT sequence)に 変換する 7. 頭からL’個のdを使って、図gみたいに復元できる 6

7.

DCTransformer • 途中までのDCT sequenceを入力に、 残りのDCT sequenceを予測 • 目的関数 • • • ① 次に注目するチャンネルはどれか (基本単調増加?) ② 次に注目する場所はどこか (基本単調増加?) ③ そのチャンネル、その場所の値は? • 目的関数はTransframerでも変わらない 7

8.

提案手法:Transframer • DCTransformerのエンコーダーだけ拡張 – 複数の画像で条件付けができるように 8

9.

提案手法:Transframer 逐次的に当てていく方法 1. DCT-imageを入力にするMulti-Frame U-Netで、見えない部分も含めてピクセル(パッ チ)レベルのembeddingを得る 2. 見えない部分のDCT-sequence (channel, position, value) を、U-Netの出力にcross 9 attentionしながら逐次的に当てていく

10.

提案手法:Transframer • 画像単位でNF-Block + フレーム間の self-attentionに通して次の解像度へ • NF-ResNet – SE-ResNeXt-D (?) + Adaptive Gradient Clipping (AGC) – 学習時間が8.7倍高速 • 複数解像度でU-Net blockを用いて encode、真逆のモデルでdecode UNet encoderの、ある解像度から次の 解像度への1ブロック 10

11.

(工夫) Residual DCT representations • DCT-imageの差分のみに注目することで、学習効率が向上 – (特に背景固定のデータセット) 11

12.

実験 @video modeling 2019 2021 2020 2020 2021 ● ● ● FitVid: Overfitting in Pixel-Level Video Prediction (2021) ViTは、vision transformerで Video Transformerとは違う 「BAIRはあんま良いデータセット じゃないよね、テストデータ少な いし」 12

14.

実験 @novel view synthesis • Transframerはすべてのシーンを1つのモデルで学習 (NeRFと違う) • PSNR・SSIMは負け、LPIPS・FIDは勝ち – 正確な角度は当てられないけど、データセットらしい画像を出力できる 14

15.

実験 @novel view synthesis ● ● Pixel NeRF (CVPR 2021) よりかなりきれい コンテクストは2枚で割とそれっぽい (1枚では、椅子の足のクロスが消えたり) ○ (記憶している物体に影響された物を出力してしまうことはあるっぽい) 15

17.

実験 @others ● 1024クラス分類は、白 い点の位置(32x32に 256x256の画像を分 割)で出力 ● 長期予測(30秒750フ レーム)では、1fpsで生 成した後に補完 17

18.

まとめと感想 • 映像予測のSoTA(レベル) • novel view synthesis、optical flow、classification、detection、segmentation、video interpolation、depth estimation、長期(30秒)の予測もできる • 「マルチタスクなコンピュータービジョンモデルの実現に役立つだろう」 • (DCTransformer (周波数領域への変換) の良さは雰囲気でしかわからず...) – 並進とかに強くなる? 18