[DL輪読会]MAST: A Memory-Augmented Self-supervised Tracker

>100 Views

April 03, 20

#deep learning #深層学習 #自己教師あり学習 #ビデオオブジェクトセグメンテーション #MAST #記憶モジュール

スライド概要

2020/04/03
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP MAST: A Memory-Augmented Self-Supervised Tracker [DL Papers] Keigo Iwakuma http://deeplearning.jp/

http://deeplearning.jp/

目次本論文の選定理由：ベンチマークを大幅に更新している！ • 書誌情報 • 導入 • 関連研究 • 提案手法 • 実験・評価 • 読んだ感想 Figure: Video Object Segmentationにおけるベンチマーク性能比較（縦軸：評価指標、横軸：訓練に使用したラベル付きデータ数）

書誌情報 • タイトル MAST: A Memory-Augmented Self-Supervised Tracker - Accepted to CVPR 2020 （以下ページのコメントより） - URL: https://arxiv.org/abs/2002.07793 • 著者 Zihang Lai, Erika Lu, Weidi Xie - Visual Geometry Group, Department of Engineering Science University of Oxford - URL: https://www.robots.ox.ac.uk/~vgg/

導入：Video Object Segmentation (VOS) • タスクの説明：一連の動画内の対象を識別しマスクを生成する - 画像に対するInstance Segmentationを動画へ拡張したもの - Multi Object Trackingにおけるバウンディングボックスをマスクへ発展させたものテスト時に動画の最初のフレームの対象ラベルが与えられている設定のもの：Semi-Supervised VOS そうでないもの：Unsupervised VOS

導入：Video Object Segmentation (VOS) • タスクの説明：一連の動画内の対象を識別しマスクを生成する - 画像に対するInstance Segmentationを動画へ拡張したもの - Multi Object Trackingにおけるバウンディングボックスをマスクへ発展させたもの本論文での設定テスト時に動画の最初のフレームの対象ラベルが与えられている設定のもの：Semi-Supervised VOS そうでないもの：Unsupervised VOS

導入：本論文での貢献 1. VOSにおける従来の自己教師あり学習方法と損失について見直し、より最適な枠組みを見つけた 2. 長期記憶と短期記憶を活用する記憶モジュールを提案することで、オクルージョンや対象のドラフト問題などに対応した 3. 代表的な評価指標で、初めて従来の教師あり学習でのVOS手法に匹敵する自己教師あり学習手法を提案できた（またVOSに関する一般性を評価する指標を提案し、そちらでは提案手法が教師あり学習手法を上回った）

導入：自己教師あり学習VOSの動機 1. トラッキングをトップダウンで教えるのは人間の場合と異なる人を見つける（検出）「人」がわからない人の概念を教える必要あり ⇒ アノテーションデータで学習させる左と同じものを右から見つける（トラッキング）「人」がわからない人の概念は必要なし ⇒ 画像内の情報で上手く特徴が作れれば特徴空間内の比較でトラッキング出来るはず... 2. 動画のアノテーションは時間も労力もかかる

関連研究：Tracking Emerges by Colorizing Videos Vondrick et.al, Google Research, ECCV2018 画像内にある情報：色 ⇒ グレー画像からRGB画像の復元ただし、復元する際には参照画像のRGB画像を利用できる設定にする

関連研究：Tracking Emerges by Colorizing Videos Vondrick et.al, Google Research, ECCV2018 画像内にある情報：色 ⇒ グレー画像からRGB画像の復元ただし、復元する際には参照画像のRGB画像を利用できる設定にする Cは16段階で分ける（One-Hot)

10.

提案手法：MAST • 従来手法の変更点１：入力画像入力画像をグレー画像からLab画像に変更し、Channel Dropoutを追加 - RGB画像ではなくLab画像にする理由： R, G, B全てに明るさ成分が含まれておりチャンネルに相関がある

11.

提案手法：MAST • 従来手法の変更点２：出力画像出力画像の色を16段階からLabの3チャンネル(各成分[-1,1])に変更問題設定も分類から回帰に変更し損失関数も以下のフーバー損失に：再構成したフレームのi番目のpixel値

12.

提案手法：MAST • 従来手法の変更点3：記憶モジュールの提案参照画像として連続したフレームだけでなく離れたフレームも保持 - 具体的には現在がt番目のとき、1, 5, t-5, t-3, t-1番目の5つを記憶（前半が長期記憶、後半が短期記憶を担う）

13.

提案手法：MAST • 従来手法の変更点3：アテンションについて Value: 参照画像、Key: 参照の特徴マップ、Query: 現在の特徴マップ

14.

提案手法：MAST • 従来手法の変更点3：記憶モジュールの提案アテンションの軽量化 - アテンション範囲の限定：計算負荷とメモリ負荷を軽減 - 限定した代わりにどこを中心にするかの問題が生じる

15.

提案手法：MAST • 従来手法の変更点3：記憶モジュールの提案アテンションの軽量化 - 参照画像へのアテンション中心の考え方：短期記憶内（t-5, t-3, t-1番目）では注目位置の近くでいいはずだが長期記憶（1, 5番目）では画像内のどこを参照してもおかしくない：に基づいて特徴マップを行列に変換：

16.

提案手法：MAST • 従来手法の変更点3：まとめ学習時

17.

実験・評価評価指標・region similarity ・contour accuracy ：動画を通しての平均IOU ：動画を通しての輪郭同士の平均F1値・generalizability：提案指標： Youtube-VOS データセットには訓練データに含まれるクラスと含まれないクラスがあるため、そのクラスごとの評価指標での差を表す小さいほど良い評価となる

18.

実験・評価：定量評価 DAVIS-2017結果 Youtube-VOS結果

19.

実験・評価：定性評価 DAVIS-2017結果

20.

実験・評価：Ablation studies

21.

読んだ感想・まとめ・本論文では、自己教師あり学習によるVideo Object Segmentationの手法を提案し、代表的な評価指標で従来の教師あり学習による手法に匹敵する成績を残した。・また、従来の自己教師あり学習による手法に対して解決策を提案しより最適な枠組みを作ることに成功した。・自己教師あり学習について実際のCVタスクに基づいて枠組み・考え方を知ることが出来た・関連研究で紹介した論文でのトラッキングの枠組みは新しいと感じたので、自分の研究にも生かしていきたい・関連研究では色付けを、本研究ではフレーム自体の再構成を訓練時のタスクとしていたが、そこが変わることによる影響についての言及がなかったので気になる