[DL輪読会]Self-supervised Video Object Segmentation

250 Views

July 17, 20

#deep learning #Video Object Segmentation #Self-supervised learning #Memory mechanism #Sequential prediction #Image segmentation

スライド概要

2020/07/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

Self-supervised Video Object Segmentation 岩隈啓悟 / Keigo Iwakuma

タイトル：Self-supervised Video Object Segmentation 著者：Fangrui Zhu, Li Zhang, Yanwei Fu, Guodong Guo, Weidi Xie 所属：Fudan University, University of Oxford, West Virginia University 論文：https://arxiv.org/abs/2006.12480 実装：https://github.com/fangruizhu/self_sup_semiVOS (coming soon...)

タイトル：Self-supervised Video Object Segmentation 目次：今回 1. 2. 3. 4. 5. 6. 概要タスク関連研究提案手法結果感想前回選定理由：前回（MAST, CVPR2020）よりさらに結果が良かったため

１．概要著者が挙げている4つの貢献 1. よりシンプルで効率的な記憶機構を提案し、対象の追跡性能を改善 2. 逐次的に予測を修正する機構を提案し、オクルージョンに対応 3. VOSに適した自己教師あり学習表現を獲得（少量のデータで学習可） 4. VOSの自己教師あり学習手法のベンチマークを更新

２．タスク Trackingには大きく分けて2種類のタスクがある Visual Object Tracking（VOT）： Video Object Segmentation（VOS）：動画内の対象の位置をバウンディングボックスで求める動画内の対象の位置をピクセル単位のマスクで求める

２．タスク Video Object Segmentation (dense tracking) ：特にテスト時に最初のフレームのマスクが与えられる設定のものを ”Semi-supervised Video Object Segmentation (Semi-VOS)” と呼ぶ代表的な枠組み１：Segmentation modelを作る代表的な枠組み２：マスクを伝播させる

２．関連研究：propagation-based dense tracking Tracking emerges by colorizing videos (ECCV2018) 過去のフレームを参照して現在のフレームの色を予測するタスクを行うことで現在と過去のフレームの対応付け方法を学習する正確にはLab空間でのLの値を用いたグレー画像から、各ピクセルのaとbの値を予測するただし、aとbの値の予測はあらかじめab空間内で行ったクラスタリング結果（16個のクラスタを作成）への分類である

３．関連研究：propagation-based dense tracking MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020) Tracking emerges by colorizing videoからの改善点 1. タスクの変更 2. 記憶機構の追加 3. propagation方法の改善前回 Tracking emerges by colorizing video

３．関連研究：propagation-based dense tracking MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020) １．タスクの変更グレー画像（Lab空間のL）⇒ カラー画像（Lab空間のabのクラスタに分類） Lab画像（Channel dropoutあり）⇒ Lab画像（各Channelの値を回帰） Lab空間を利用する目的は、各チャンネルごとに相関がなく DropoutがBottleneckとして機能するため回帰の損失にはHuber Lossを使用（分類にはCross Entropy Lossを使用していた）

10.

３．関連研究：propagation-based dense tracking MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020) ２．記憶機構の追加参照画像が連続したもののみだと画像内から見えなくなったときに復帰ができない ⇒ 参照画像を増やす長期記憶として1, 5フレーム目、短期記憶として現在から-1, -3, -5フレーム目の計５枚を参照画像として使用する

11.

３．関連研究：propagation-based dense tracking MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020) ３．propagation方法の改善各ピクセルの類似度を参照画像の全ピクセルと計算するのは負担が大きすぎる ⇒ coarse-to-fineな方法で領域を限定する coarse：各ピクセルが参照画像のどこに近いか中心位置（ROIの中心）を決める fine：その中心位置から一定の距離内（ROI内）にあるピクセルの類似度を計算する ROI中心を決めるための類似度 dilation ratio ROI中心

12.

３．関連研究：momentum update Momentum Contrast for Unsupervised Visual Representation learning (CVPR2020) この論文で使用されているmomentum updateと呼ばれる手法を利用することで学習時の特徴の一貫性が保たれるためより良い表現が得られる、物理メモリ負荷も軽減可能 Key側の特徴抽出器のパラメータ更新は誤差逆伝播ではなく、以下のmomentum updateを利用

13.

３．関連研究：prior Deep Image Prior (CVPR2018) ノイズ除去などの画像復元タスクを行う際に出力を方向づける制約をPriorと呼ぶ NNを用いた画像復元ではそのPriorはデータから学習されるものと考えられてきたが NNの構造自体がPriorの役割を持っているということを実験的に示した論文ダウンサンプリングして左のようになる画像は無数にあるが顔の構造を知っていれば右のような画像になりそうと検討がつくこの例では顔の構造がPriorとなっている

14.

４．提案手法貢献４ Self-supervised Video Object Segmentation 貢献２貢献１貢献３

15.

４．提案手法：貢献１ Self-supervised Video Object Segmentation ROI Localizationを撤廃 ⇒ 各ピクセルをそのままROIの中心とする QueryとKeyで特徴抽出器を分ける：Key側の更新はmomentum updateを利用特徴抽出器を分ける（momentum updateの利用） ROIの中心は各ピクセルの位置をそのまま利用 PropagationはそのままROI内の類似度との加重平均 Huber lossを使用

16.

４．提案手法：貢献２ Self-supervised Video Object Segmentation propagation basedな手法では時空間的な連続性を持ったピクセル単位の輝度の一致しか考慮していないため一度オクルージョンなどが起きると復帰が難しい ⇒ 外見を考慮したモデルを新たに加え、その出力を最終的な予測とする 200 iters from scratch Propagation masksとU-Net出力の評価 Ground TruthとU-Net出力の評価 Deep Image Priorの利用 propagation masks (pseudo groundtruth) 最終的な予測 pixel-wise cross entropy lossとDice lossを使用

17.

５．結果実験の設定： Backbone: ResNet-18 (input size: 384x384 (encoder), 480x480 (U-Net)) Dataset: YouTube-VOS, DAIVS-2017 Metric: region similarity (J), contour accuracy (F) Ablation Study

18.

５．結果：貢献３、４今回提案した機構を用いることで、少量のデータでもより効率的に学習できる（左）自己教師あり学習では最も成績がよく、教師あり学習にも匹敵する（真ん中）学習時になかったクラスに関しても結果が良い（右）

19.

５．結果：Appendix 機構の有無による定性比較 U-Netのiter数による定性比較

20.

６．まとめ：概要再掲著者が挙げている4つの貢献 1. よりシンプルで効率的な記憶機構を提案し、対象の追跡性能を改善 2. 逐次的に予測を修正する機構を提案し、オクルージョンに対応 3. VOSに適した自己教師あり学習表現を獲得（少量のデータで学習可） 4. VOSの自己教師あり学習手法のベンチマークを更新

21.

６．感想 Online Adaptationについて、論文を読む限りpropagationをし終えてからUNetの学習に入るように感じたがどのへんがOnlineなのか合わせ技のような論文だったが、各手法の活用がよく出来ていると思った細かい部分でわからないところが多かったので実装の公開が待たれる