【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision

594 Views

June 02, 23

スライド概要

2023/6/2
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] DINOv2: Learning Robust Visual Features without Supervision Taichi Okunishi, Keio Univ. http://deeplearning.jp/ 1

2.

書誌情報 • タイトル – DINOv2: Learning Robust Visual Features without Supervision • 出典 – https://arxiv.org/abs/2304.07193 • 著者 – Meta AI の研究者,他 • 出版年⽉ – 2023年4⽉ • コード – https://github.com/facebookresearch/dinov2 2

3.

概要 • DINOv2 は画像の⾃⼰教師あり学習⼿法である DINO の拡張 • DINO (Distillation of knowledge with No labels ) [1] – ラベルなしの⾃⼰蒸留による⾃⼰教師あり学習⼿法 • DINOとの差分 – キュレーションされた⼤規模データセットを⽤いて事前学習 • 結果 – 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕 – ImageNet-1K の分類タスクでは,OpenCLIPを超える精度 3

4.

背景知識|DINO (1/2) • DINO(Distillation of knowledge with No labels )[1] – ラベルなし⾃⼰蒸留による⾃⼰教師あり学習⼿法 – 今回報告された DINOv2 の元となる論⽂ 4

5.

背景知識|DINO (2/2) • DINOにおける⾃⼰蒸留 – 本来の⾃⼰蒸留の⽬的: • ⼤きなモデルを模倣する⼩さなモデルを訓練してモデル圧縮 – DINOにおける⾃⼰蒸留の⽬的 • ラベルなしデータにソフトな擬似ラベルを伝播するために使⽤ 5

6.

本研究の位置づけ • 画像の⾃⼰教師あり学習⼿法 DINOの改良 – ラベルなし⾃⼰蒸留による表現学習 • DINOからの差分 – キュレーションされた⼤規模データセットによる事前学習 • 多様性のあるデータによる学習により,様々なタスクに万能な表現学習 – その他の細かな技術的変更(付録スライド参照) • 様々な画像タスクでDINOv2の有⽤性を評価 – 他の⾃⼰教師あり学習や,弱教師あり⼿法との⽐較 6

7.

DINOv2 (1/2)| キュレーションデータセットの作成 • データソース – ImageNet-22K,Google Landmarksなど (⼀覧は付録A参照) – 142Mのデータ数 • Embedding – 事前学習済みViTで embeddingを抽出 7

8.

DINOv2 (2/2)| キュレーションデータセットの作成 • Deduplication – 既存のコピー検出パイプライン[2]により,重複画像を削除 • Retrieval – コサイン類似度を⽤いて,未キュレーションデータから類似画像を取得 → キュレーションデータに追加 8

9.

実験結果(1/3)|様々なタスクでの結果 黄:自己教師あり手法 赤:弱教師あり手法 青:DINOv2 (提案手法) • 様々な画像タスクで,他の⾃⼰教師ありや,弱教師ありを上回る精度 • モデルサイズが増えるにつれて,精度向上 9

10.

実験結果(2/3) | ImageNet-1Kでの結果 • DINOv2は,OpenCLIPよりも精度が向上 • 他の⾃⼰教師あり学習⼿法を上回る精度 10

11.

実験結果(3/3)| 定性的評価 • DINOv2で抽出した特徴に対するPCAの結果 • 教師なしにも関わらず,意味領域の情報を捉えている 11

12.

まとめ • 画像の⾃⼰教師あり学習 – 画像の表現学習に重要な役割 • DINO (Distillation of knowledge with No labels )[1] – 画像の⾃⼰教師あり学習⼿法の1つ – ラベルなし⾃⼰蒸留による表現学習 • 本研究:DINOv2 – 基本的にはDINO と同じ – キュレーションされた⼤規模データセットで事前学習 • 結果 – 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕 – ImageNet-1Kでは,OpenCLIPを上回る精度 12

13.

参考⽂献 [1] M. Caron et al., “Emerging Properties in Self-Supervised Vision Transformers,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada: IEEE, Oct. 2021, pp. 9630‒9640. [2] Ed Pizzi, et al. A self-supervised descriptor for image copy detection. arXiv preprint arXiv:2202.10261, 2022. [3] Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, and Hervé Jégou. Spreading vectors for similarity search. arXiv preprint arXiv:1806.03198, 2018. 13

14.

付録:使⽤したデータセット⼀覧 14

15.

付録:DINOからの他の技術的差分 • 解像度の適応 – 事前学習の最後に短期間で画像の解像度を518×518に上げる. – ⼩さなオブジェクトが低解像度で消える問題点を解消 • KoLeo regularizer [3]の使⽤ – バッチ内の特徴量の均⼀化を促進 15