【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023)

172 Views

May 15, 23

スライド概要

2023/5/12
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Visual Classification via Description from Large Language Models 大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法 [DL Papers] 山本 貴之(ヤフー株式会社・早稲田大学 河原研 D1) http://deeplearning.jp/ 1

2.

書誌情報 タイトル: Visual Classification via Description from Large Language Models 大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法 ICLR 2023 (notable top 5%) https://openreview.net/forum?id=jlAjNL8z5cs 著者: Sachit Menon, Carl Vondrick Department of Computer Science Columbia University 概要: 大規模言語モデル(LLM)に埋め込まれた知識を画像分類に活用する手法。 分類根拠が自然言語で分かる。 選定理由: 個人的にLLMの活用が多様な下流タスクをより良くするという仮説を持っており、 正にそのような事を面白いアイディアかつシンプルに実現している論文で、応用範囲が広そう。 公式実装: https://github.com/sachit-menon/classify_by_description_release ※出典記載の無い図表は本論文からの引用 2

3.

背景 ▊ 課題 ▊ ▍ Hen(雌鶏)を見分ける事は出来るか? ▍ 人間が使うような簡単な言語的手がかりに目を向けていない ▍ モデルが判断した根拠が分からない ▊ 現状 ▊ ▍ CLIPは(固定カテゴリでない)分類タスクで高性能 ▍ 未だに理不尽な間違えをする事がある(→次ページに具体例) 3

4.

内容 ▊ 何をしているか論文か? ▊ ▍ 画像分類タスクに大規模言語モデル(GPT-3)を活用し、ImageNetでベースライン比+4~5%の成果 ▍ 分類の根拠を説明可能(言語で説明) 既存手法(分類ミス) 提案手法(正しく分類) ※赤棒グラフは、ミスした分類カテゴリのOursモデル値 Dalmatian 分類根拠 “足が2本”など ※横軸はcos類似度×100 体表の模様 で分類した? 4

5.

新規性 ▊ 輪読者の考える新規性 ▊ ▍ GPT-3で、「分類カテゴリ」を見分けるのに有用な「識別特徴」を生成させるアイディア ▍ 「識別特徴」を使って、分類するロジック ▍ 分類根拠を「自然言語で説明」できる事 分類カテゴリ 自然言語で説明 識別特徴の関与スコア 識別特徴 ※横軸はcos類似度×100 5

6.

手法 全体概要 右下図の赤色部分が相違点 識別特徴との距離で分類 既存手法(CLIP分類) 分類画像 表現 ベクトル空間 提案手法 カテゴリ名 識別特徴 画CLIP 処理 パイプライン ※輪読者解釈 カテゴリ名 文CLIP ベクトル 分類画像 ImageNet なら1,000 ベクトル カテゴリ名 画CLIP ベクトル 距離 分類画像 距離 tiger に近い GPT-3 識別特徴 識別特徴 識別特徴 文CLIP 文CLIP ベクトル 文CLIP ベクトル ベクトル ▍ 提案手法は、GPT-3が出力した「識別特徴」との距離を使って分類を行う。上図赤色部分が主な特徴 6

7.

手法 GPT-3を活用し[識別特徴]を生成する部分 処理パイプライン全体 画CLIP ImageNet なら1,000 カテゴリ名 ベクトル 距離 分類画像 GPT-3 識別特徴 識別特徴 識別特徴 文CLIP 文CLIP ベクトル 文CLIP ベクトル ベクトル ▊ 左図赤色部分の処理 ▊ ▍ 1 のプロンプトを用いGPT-3に入力 ▍ GPT-3が列挙した複数の回答を識別特徴とする 2 1 Q:写真で{スクールバス}を見分けるのに有用な特徴は何ですか? A: {スクールバス}を見分けるのに有用な特徴がいくつかあります ‐大型の黄色い車 ‐ 「スクールバス」と書いてある 2 ‐側面からストップサインが出る ⋮ 7

8.

手法 識別特徴とカテゴリの[相対スケール]を正しく認識する為の処理 処理パイプライン全体 画CLIP ImageNet なら1,000 カテゴリ名 GPT-3 識別特徴 識別特徴 識別特徴 相対スケールの正しい認識 象の短いしっぽ vs ねずみの長いしっぽ 1 2 ベクトル 距離 分類画像 文CLIP 文CLIP ベクトル 文CLIP ベクトル ベクトル ▊ 左図赤色部分の処理 ▊ ▍ 象の短いしっぽと、ねずみの長いしっぽを 正しく処理する為に ▍ 識別特徴は下記のプロンプトテンプレート 1 に従ってプロンプト化されCLIPに入力される 2 A: { 象 }を見分けるのに有用な特徴がいくつかあります ‐短いしっぽ A: { ねずみ }を見分けるのに有用な特徴がいくつかあります ‐長いしっぽ プロンプト テンプレート 文CLIPに 入力される文字列 ・elephant which has short tail ・mouse which has long tail 8

9.

手法 距離算出と分類 処理パイプライン全体 画CLIP ベクトル 距離 分類画像 ImageNet なら1,000 カテゴリ名 GPT-3 識別特徴 識別特徴 識別特徴 ▊ 左図赤色部分の処理 ▊ ▍ 文CLIP 文CLIP ベクトル 文CLIP ベクトル ベクトル =CLIP類似度(=cos類似度) ▍ 分類画像と各識別特徴の類似度の和の正規化 ▍ 分類結果は、全Cの内モデルsが最大値のもの φ=cos類似度 モデル x 最もモデル値が 高いカテゴリを 分類結果とする 分類画像 識別特徴 ベクトル 正規化 識別特徴の 数で割る 各識別特徴 ImageNet なら1,000 9

10.

モデルアーキテクチャ ▊ 学習済GPT-3と学習済CLIPを活用するのみ。 その他、モデルの学習等はしていない 利用方法や種別など 学習済GPT-3 APIで利用 利用料金は$20以下 text-davinci-002 学習済CLIP VisionTransformer系4種で実験 10

11.

検証用データセット ▊ データセット一覧(8種) 多様なタスクで成果が出るかを確認している ▊ ▍ ImageNet dataset (Russakovsky et al., 2015) for everyday object recognition ▍ ImageNetV2 (Kornblith et al., 2019) for distribution shift from ImageNet ▍ CUB for fine-grained classification of birds (Wah et al., 2011) ▍ EuroSAT (Helber et al., 2019) for satellite image recognition ▍ Places365 for scenes ▍ Food101 (Bossard et al., 2014) for food ▍ Oxford Pets (Parkhi et al., 2012) for common animals ▍ Describable Textures Cimpoi et al. (2014) for in-the-wild patterns 11

12.

結果 ▊ CLIPベースラインとの対比 ▊ ▍ 全てのデータセットでベースラインを上回る結果(Ours) ▍ 日常的な物体認識に限定されず、衛星画像(EuroSAT)で+7%、テクスチャ(Textures)で+2.5%、 細かな鳥類(CUB)で+1~2%の改善 12

13.

結果 (左が提案手法。右がベースラインのCLIP) アホウドリ 旅客機 菜種 蜂 渓谷 ※横軸はcos類似度×100 ※赤棒グラフは、ミスした分類カテゴリのOursモデル値 13

14.

考察 ▊ 言語モデルのサイズと分類性能の関係 ▊ ▍ LLMサイズが小さいとベースラインを超えない(≒LLMの賢さに性能が依存) OPTモデルサイズとベースラインとの相対性能 OPTモデル一覧 Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., ... & Zettlemoyer, L. (2022). Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068 . 14

15.

まとめ ▊ 結論 ▊ ▍ Vision&Languageモデルでのゼロショット分類の新しいフレームワークを提案 ▍ LLMの視覚カテゴリの言語知識を活用し、識別特徴を生成し、識別特徴と画像を比較する ▍ GPT-3とCLIPを使い、性能向上、根拠説明、新しい知識への適応、バイアスの軽減を実現 ▊ 感想 ▊ ▍ LLM内の知識を利用し、低計算リソースで下流タスク精度を上げ、説明性も実現、しかも手法がシンプル ▍ LLMが多様な下流タスクをより良くするという仮説を持っているが、それを体現した論文 ▍ CLIP部を高性能なマルチモーダルLLMにすれば、さらに精度が上がりそう 15

16.

Thank you. 16