【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision

5K Views

June 02, 23

#@deep learning jp #Deep Learning #DINOv2 #Self-Supervised Learning #Image Recognition #ImageNet-1K

スライド概要

2023/6/2
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DINOv2: Learning Robust Visual Features without Supervision Taichi Okunishi, Keio Univ. http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル – DINOv2: Learning Robust Visual Features without Supervision • 出典 – https://arxiv.org/abs/2304.07193 • 著者 – Meta AI の研究者，他 • 出版年⽉ – 2023年4⽉ • コード – https://github.com/facebookresearch/dinov2 2

概要 • DINOv2 は画像の⾃⼰教師あり学習⼿法である DINO の拡張 • DINO （Distillation of knowledge with No labels ） [1] – ラベルなしの⾃⼰蒸留による⾃⼰教師あり学習⼿法 • DINOとの差分 – キュレーションされた⼤規模データセットを⽤いて事前学習 • 結果 – 様々な画像タスクで，他の⾃⼰教師あり，弱教師あり⼿法を凌駕 – ImageNet-1K の分類タスクでは，OpenCLIPを超える精度 3

背景知識｜DINO (1/2) • DINO（Distillation of knowledge with No labels ）[1] – ラベルなし⾃⼰蒸留による⾃⼰教師あり学習⼿法 – 今回報告された DINOv2 の元となる論⽂ 4

背景知識｜DINO (2/2) • DINOにおける⾃⼰蒸留 – 本来の⾃⼰蒸留の⽬的： • ⼤きなモデルを模倣する⼩さなモデルを訓練してモデル圧縮 – DINOにおける⾃⼰蒸留の⽬的 • ラベルなしデータにソフトな擬似ラベルを伝播するために使⽤ 5

本研究の位置づけ • 画像の⾃⼰教師あり学習⼿法 DINOの改良 – ラベルなし⾃⼰蒸留による表現学習 • DINOからの差分 – キュレーションされた⼤規模データセットによる事前学習 • 多様性のあるデータによる学習により，様々なタスクに万能な表現学習 – その他の細かな技術的変更(付録スライド参照) • 様々な画像タスクでDINOv2の有⽤性を評価 – 他の⾃⼰教師あり学習や，弱教師あり⼿法との⽐較 6

DINOv2 (1/2)| キュレーションデータセットの作成 • データソース – ImageNet-22K，Google Landmarksなど (⼀覧は付録A参照） – 142Mのデータ数 • Embedding – 事前学習済みViTで embeddingを抽出 7

DINOv2 (2/2)| キュレーションデータセットの作成 • Deduplication – 既存のコピー検出パイプライン[2]により，重複画像を削除 • Retrieval – コサイン類似度を⽤いて，未キュレーションデータから類似画像を取得 → キュレーションデータに追加 8

実験結果(1/3)｜様々なタスクでの結果黄：自己教師あり手法赤：弱教師あり手法青：DINOv2 (提案手法） • 様々な画像タスクで，他の⾃⼰教師ありや，弱教師ありを上回る精度 • モデルサイズが増えるにつれて，精度向上 9

10.

実験結果(2/3) | ImageNet-1Kでの結果 • DINOv2は，OpenCLIPよりも精度が向上 • 他の⾃⼰教師あり学習⼿法を上回る精度 10

11.

実験結果(3/3)| 定性的評価 • DINOv2で抽出した特徴に対するPCAの結果 • 教師なしにも関わらず，意味領域の情報を捉えている 11

12.

まとめ • 画像の⾃⼰教師あり学習 – 画像の表現学習に重要な役割 • DINO (Distillation of knowledge with No labels )[1] – 画像の⾃⼰教師あり学習⼿法の１つ – ラベルなし⾃⼰蒸留による表現学習 • 本研究：DINOv2 – 基本的にはDINO と同じ – キュレーションされた⼤規模データセットで事前学習 • 結果 – 様々な画像タスクで，他の⾃⼰教師あり，弱教師あり⼿法を凌駕 – ImageNet-1Kでは，OpenCLIPを上回る精度 12

13.

参考⽂献 [1] M. Caron et al., “Emerging Properties in Self-Supervised Vision Transformers,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada: IEEE, Oct. 2021, pp. 9630‒9640. [2] Ed Pizzi, et al. A self-supervised descriptor for image copy detection. arXiv preprint arXiv:2202.10261, 2022. [3] Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, and Hervé Jégou. Spreading vectors for similarity search. arXiv preprint arXiv:1806.03198, 2018. 13

14.

付録：使⽤したデータセット⼀覧 14

15.

付録：DINOからの他の技術的差分 • 解像度の適応 – 事前学習の最後に短期間で画像の解像度を518×518に上げる． – ⼩さなオブジェクトが低解像度で消える問題点を解消 • KoLeo regularizer [3]の使⽤ – バッチ内の特徴量の均⼀化を促進 15