[DL輪読会]"Omnimatte: Associating Objects and Their Effects in Video"

>100 Views

December 22, 21

deep learning

スライド概要

2021/12/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.9K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.8K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.9K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.5K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.7K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Omnimatte: Associating Objects and Their Effects in Video (CVPR 2021 Oral) Takeru Oba, Ukita Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル：Omnimatte: Associating Objects and Their Effects in Video 著者：Erika Lu 1, 2 Forrester Cole 1 Tali Dekel 1, 3 Andrew Zisserman William T. Freeman 1 Michael Rubinstein 1 2 1: Google Research, 2: VGG, University of Oxford, 3: Weizmann Institute of Science 会議：CVPR 2021 関連研究：Layered Neural Rendering for Retiming People in Video (同じ著者）図、動画はプロジェクトページと論文から引用（https://omnimatte.github.io/#paper） 2

概要モチベ：物体がシーンに与える影響を特定したい応用：Inpainting, Color pop, Stroboscopy 3

概要影だけでなく、様々な種類の影響を予測例：車の出す煙例：水の波紋 4

概要カメラの移動にも複数物体にも対応例：カメラの移動例：複数物体（人とサッカーボール） 5

概要タスク：動画と対象物体の大まかなマスクを入力としてOmnimatteと背景を予測これを自己教師あり学習で行う Omnimatteとは：対象物体とその物体が影響した部分のマスク(α）とカラー（RGB）入力出力 6

ネットワークの全体像潜在変数は固定背景予測以外では該当する領域をクロップ OmniMatteモデルは動画ごとに学習 U-Net 物体ごとに予測 IDとマスク部分のフロー、潜在変数をモデルに入力（カラー画像を入力しない） Omnimatteとフローを予測 7

損失関数 OmniMatteモデルを5つの損失関数により学習再構成誤差：入力画像と出力画像が一致を一致させる入力画像出力画像 αマップへの制約1：一つのレイヤーのマスクをできるだけ小さくする予測αマップ滑らかに制約をかけるための項 αマップへの制約2：αマップが入力マスクと一致する制約（学習の序盤のみ） 𝑑𝑡𝑖 で入力マスクのエッジ部分では損失をゼロにする 8

損失関数 OmniMatteモデルを5つの損失関数により学習フロー再構成誤差：GTフロー画像と出力フロー画像を一致させる GTフロー画像出力フロー画像 αマップとフローの時間的一貫性：𝑡と𝑡+1のαマップの変異がフローと一致 𝑡フレームの予測αマップ 𝑡 + 1フレームのαマップをフローに基づいて移動 9

10.

なぜこれで影響の予測ができる？ U-Net 物体ごとに予測背景の潜在変数はすべてのフレームで固定なため、変化している部分を表現できない。そのため、変化している部分は背景以外のレイヤーで表現されないと画像の再構成ができない。結果として、各レイヤーは物体とそれに対応する影響を予測するようになる。 10

11.

実験結果（成功例） 11

12.

実験結果（失敗例）海など背景が動く場合には、物体の影響と勘違いする背景が固定でも、カメラの位置推定の精度が悪いと失敗する 12

13.

実験結果（失敗例）鏡に映った人が間違った人の影響だと予測している 13

14.

課題とまとめ課題 • カメラ位置の推定が難しい場合には背景の変異が物体の影響として認識されてしまう（論文に記載） • ネットワークの初期で結果が大きく変わる場合がある（論文に記載） • 角度によって見え方が変わる場合でも難しい（想像） • 海や川など背景が動く場合でも物体の影響と分離できない（実験結果より）まとめ動画とその中の動的物体のマスクから、その物体が与えた影響（影、煙、波紋など）をomnimatteとして予測する新しい問題を、アノテーションなしに解く方法を提案した。 14