121 Views
June 20, 24
スライド概要
論文紹介資料です。
【注意書】
研究室内の発表に使用したものであり、解釈に誤りがある可能性があるため、ご参照いただく際はご注意ください。
また、資料の転用は禁止しております。
3SHNet: Boosting Image-Sentence Retrieval via Visual Semantic-Spatial Self-Highlighting 2024年6⽉15⽇ 野々⼭裕樹
◯ ⽬次 • 論⽂概要 • Image-Sentence(Text) Retrieval • 関連研究 • 提案⼿法(3SHNet) • 実験/結果 • その他の論点 • アブレーション研究(3SHNetの有効性) • VSeM及びVSpMの可視化 • 検索性能の⽐較(3SHNetとVSE♾) • ⼤規模な事前学習モデルに関する議論 1
◯ 論⽂概要 Ø タイトル • 3SHNet:Boosting Image-Sentence Retrieval via Visual Semantic-Spatial SelfHighlighting Ø 研究背景 • 画像とテキスト間のセマンティックギャップが存在、特にテキストの⽅が構造上整ってお り、具体的な表現であるためテキストからの情報に依存 • ⼈間が画像を⾒る際、写っているオブジェクトとその位置に焦点を当てる傾向があるが、考 慮されていない Ø 提案⼿法(3SHNet: Visual Semantic-Spatial Self-Highlighting Network ) • 視覚表現学習におけるテキスト情報への依存を克服すること • 画像内のオブジェクトのセマンティクスとその空間的位置を強調し検索性能を向上 Ø 結果 • 従来の⼿法より優れた性能 • 最適な検索効率の維持 • データセット横断的な汎化性能の向上 2
◯ Image-Sentence(Text) Retrieval Ø 定義︓ Vision and Languageの応⽤。画像とテキストの関連性を学習し、与えられたクエリとしての テキストまたは画像と最も関連性の⾼い画像またはテキストを検索するというタスク。 Ø 評価指標︓ Recall@K︓検索結果の上位K件に正解が含まれる割合。K=1,5,10が多い。その他複数の評価 指標を合計するrSumを併記することも多い。 Ø 実⽤例︓ レコメンドシステムにおける画像や⽂章検索、実⽤的なマルチメディアアプリケーション(検索 エンジンにおけるマルチモーダル検索)の基礎的な役割を果たしている。 <フローのイメージ> 3 (図引⽤) On the Limitations of Visual-Semantic Embedding Networks for Image-to-Text Information Retrieval.Figure1
◯ 関連研究 1. テキスト依存の視覚表現学習︓ ü 画像・テキスト間の相互作⽤で画像から⽂章(逆も)への検索のための視覚的な特徴を作成 ü モデルが各単語に関連したオブジェクトの領域にAttentionを向けることで視覚的に強化 • 冗⻑な計算による推論速度の低下︓ 画像が新しい⽂章との類似性を評価するたびに再計算を⾏う必要 ⽋点 • クロスドメイン汎化が困難︓ 特定のデータセットに最適化されるため、1つのデータセットで学習したモデルを他の データセットに適⽤する場合、再学習が必要 <モデルのイメージ> (図引⽤)Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval. Figure2 4
◯ 関連研究 2. ハイブリッドレベルの視覚表現強化︓ テキストに依存しないローカル・グローバルな特徴の両⽅を組み合わせたハイブリッドレベ ルの視覚表現。 ü • 主要なオブジェクトとその空間位置を無視︓ ⼈間が画像を理解する時、主要なオブジェクトとその空間的位置に焦点を当てる傾向。 ⽋点 • テキストアノテーションの性質︓ アノテーションはアノテータの注意を反映しているため、画像とテキストが独⽴してい る場合、⼈間のような注意のモデリングを視覚表現に組み込むことが論理的。 <モデルのイメージ> (図引⽤) Learning the Best Pooling Strategy for Visual Semantic Embedding. Figure1 5
◯ 提案⼿法(3SHNet) Ø VSeM・VSpMの2つのモジュールから構成 Ø セグメンテーションマップ上の相互作⽤を通じて、主要なオブジェクトとその空間的な位置を強調 Ø SegmentationをImage-Sentence Retrievalに初めて導⼊ VSeM Image feature Sentence feature VSpM 6
◯ Segmentation Ø 3SHNetでは下図のようにセグメンテーションから得られるセマンティックと空間的な位置関係に 基づいて特徴の統合が⾏われる Ø 現状のセグメンテーションやマルチレベルオブジェクトの技術は⼈間の知覚に着想を得ている Ø セグメンテーションとオブジェクト領域の特徴を統合することは⼈の情報処理と包括的に⼀致する 7
◯ Visual-Textual Feature Extractors Ø 3SHNetでは視覚的なセマンティクスを完全に捉えるために、詳細なローカルレベ ルとコンテクストを含むグローバルレベルの画像表現を使⽤する。 ① Local-level Representation • Bottom-up-attention-networkを利⽤してサブリージョン特徴 𝑉 ! = {𝑣"! , ⋯ , 𝑣#! }を抽出し、主要部分をカバー、画像全体を表現。 ② Global-level Representation • ResNeXt及びAdaptiveAvgPool2dを利⽤して画像全体のグリッドベースの 特徴 𝑉! を抽出。 ③ ① ② ③ 主要なオブジェクトとその位置情報による視覚表現の強化 • FPNベースのUPSNetから、セグメンテーション特徴 𝑉 " 及びセグメンテー ションマップ 𝑉 # を抽出。 Ø Sentence • BERTによる埋め込み、全結合層を通すことで特徴 𝐸 を抽出。 ※ 以降の説明では簡略化のため①のサブリージョン特徴を⽤いて説明される。 8
◯ Visual Semantic-Spatial Multimodal Modelling Ø ⼈間が画像を観察・分析する⽅法を踏まえ、画像表現を Visual-semantic multimodal modelling と Visual-spatial multimodal modelling の2つの観点から再構築する。 Ø 画像はSemantic-Spatial Modelling により、細かい粒度のローカルレベルのオブジェクト領域特 徴やグローバルレベルのグリッドベースの特徴に変換される。 Semantic-Spatial Modelling 9
◯ Visual-Semantic Multimodal Modelling(VSeM) ⽬的︓オブジェクト領域の顕著性を強調し、セマンティックに強化 ① セグメンテーション特徴 𝑉 $ にGlobal Average Poolingの操作及びFC層を 通して射影︓ 𝑉̈ $ = 𝐹𝐶 𝐺𝐴𝑃 𝑉 $ ② 射影後のセグメンテーション特徴 𝑉̈ $ とサブリージョン特徴 𝑉 ! のCos類似度 を計算し、sigmoid関数を適⽤することで、各サブリージョン特徴がどの程 度重要か⽰す顕著性重み 𝛼% を取得︓ (𝑉̈ $ )& (𝑊 ! 𝑣%! ) 𝛼% = 𝑆𝑖𝑔𝑚𝑜𝑖𝑑 𝐷||𝑉̈ $ ||||𝑊 ! 𝑣%! || ③ 得られた重み 𝛼% を使⽤して、サブリージョン特徴を強調︓ ② ④ ③ ① 𝑣̇ %! = 𝛼% 𝑊 ! 𝑣%! ④ 重み付けされた詳細なオブジェクト特徴とセグメンテーション特徴を条件 付きで融合することで、セマンティック表現が強調された詳細なオブジェ クト特徴である𝑉̈ ! = {𝑣̈ %! }を取得︓ 𝑣̈ %! = 𝑊̈ ! (𝑇𝑎𝑛ℎ 𝑊̇ ! 𝑣̇ %! 𝑣̇ %! + 𝑉̈ $ ) ※ Dは射影した次元数、 𝑊 ! 、 𝑊̇ ! 、 𝑊̈ ! は線形射影パラメータ 10
◯ Visual-Spatial multimodal modelling (VSpM) ⽬的︓ セグメンテーションマップにおける空間的境界を利⽤して、視覚的な局所 的・構造的セマンティクスの位置的な関連性を追究 ① 位置エンコーディングの適⽤ • ② セグメンテーションマップ 𝑉 ' の各ピクセル位置 𝑝 に対して、位置エン コーディングを⾏い、密なベクトルに埋め込み処理しやすいようにする 𝑆𝑖𝑛(𝑝/10000 (/* ), 𝑖𝑓 𝑗 𝑖𝑠 𝑒𝑣𝑒𝑛, 𝑃𝐸( 𝑝 = B 𝐶𝑜𝑠(𝑝/10000 (/* ), 𝑖𝑓 𝑗 𝑖𝑠 𝑜𝑑𝑑, ① 空間的な位置埋め込みとセグメンテーションマップ𝑉 を連結 ③ ⑤ ' 𝑉̇ ' = 𝐶𝑜𝑛𝑐𝑎𝑡(𝑃𝐸 𝑉+' , 𝑉 ' ) • ② ④ このベクトルに対してConv2dを適⽤し、位置埋め込みを精緻化する ことで、画像の構造を詳細に表現する 𝑉̈ ' = 𝐶𝑜𝑛𝑣2𝑑(𝑉̇ ' ) 11
◯ Visual-Spatial multimodal modelling (VSpM)
③ サブリージョン特徴の空間的相関係数 𝛽%( の計算
•
射影された視覚的特徴(サブリージョン特徴) 𝑈 ! 𝑣%! と空間的特徴 𝑉(̈ '
のCos類似度を計算することで、関連性を定量化する
𝑐%( =
•
(- ! ."! )(1#̈ $ )%
||- ! ."! ||||1#̈ $ ||
, 𝑖 ∈ 1, 𝐾 , 𝑗 ∈ [1, 𝐻 + ×𝑊 + ]
求めたCos類似度にソフトマックス関数を適⽤し空間的相関係数𝛽%( を求
める
exp(𝜆𝑐%( )
①
𝛽%( = 4 & ×6 &
∑(3"
exp(𝜆𝑐%( )
④ 各オブジェクトについて空間的に集中した特徴の取得
&
③
⑤
②
④
&
×6
𝑣⃛%' = ∑4
𝛽%( 𝑣(̈ '
(3"
[! で
⑤ 空間的な埋め込みと対応するサブリージョン特徴をマッピングパラメータ𝑈
# $ = {⃛
結合し、視覚空間表現 𝑉
𝑣%$ } を得る
[ ! (⃛
𝑣⃛%! = 𝑈
𝑣%' + 𝑈 ! 𝑣%! )
※ 𝑈! は線形射影パラメータ、 𝜆はスムーシングパラメータ
12
◯ Feature Aggregation and Objective Function ⽬的︓ ここまで⾏った計算結果を圴⼀な埋め込み空間に集約し、画像とテキストの類似 度を計算 2 Ø 論⽂では計算式の記載がなかったので、⽂章と図から推測すると、 [ ! )、元の特徴量( 𝑉 ! )、セグメンテーション特徴 ① VSeM、VSpMの計算結果( 𝑉̈ ! , 𝑉 (𝑉 ' )を統合 1 [ ! + 𝑉 ! 𝑋, 𝑉 ! 𝑋, 𝐹𝑙𝑎𝑡𝑡𝑒𝑛 𝑉 ' 𝑋 = 𝑉7 𝐶𝑜𝑛𝑐𝑎𝑡 𝑉̈ ! + 𝑉 1 2 3 3 ② 統合された特徴 𝑉7 にGPO(Generalized Pooling Operator)を適⽤し、集約 𝐺𝑃𝑂 𝑉7 = 𝐼 ① ③ ② ④ ③ テキストの特徴𝐸にもGPOを適⽤し集約 𝐺𝑃𝑂 𝐸 = 𝑇 ④ 抽出された特徴 I、T の間で類似度を計算 ※ 𝑋は線形射影パラメータ 13
◯ 実験 Ø 対象データ • MS-COCO及びFlickr30k • MS-COCOはテスト⽤のデータセットを5分割した1Kと全て使⽤する5Kの2パターンで検証 • いずれも、各画像に対して5つの説明⽂が付属している Ø ⽐較対象 • Region、Grid、ハイブリッド(Region+Grid)ベースの画像特徴に基づく3SHNetの性能を、 対応する各⼿法の先⾏研究のモデルと⽐較 • 先⾏研究のモデルがアンサンブルモデルの場合もあるため、3SHNeもアンサンブルモデルの 結果を掲載 Ø 評価指標 • 𝑅𝑒𝑐𝑎𝑙𝑙@ 𝑄(𝑄=1,5,10) • 𝑟𝑆𝑢𝑚 = 𝑅𝑒𝑐𝑎𝑙𝑙@1 + 𝑅𝑒𝑐𝑎𝑙𝑙@5 + 𝑅𝑒𝑐𝑎𝑙𝑙@10 + (𝑅𝑒𝑐𝑎𝑙𝑙@1 + 𝑅𝑒𝑐𝑎𝑙𝑙@5 + 𝑅𝑒𝑐𝑎𝑙𝑙@10) Image-to-Sentence Sentence-to-Image • Kpps:1秒間に処理を⾏なった画像・テキストのペアの数 14
◯ 実験結果(MS-COCO-5k・ Flickr30k) <MS COCO-5K> < Flickr30k > ※ 最良の結果は太字で強調。∗ はアンサンブルモデルのパフォーマンスを⽰す。アンサンブルモデルは⾚枠囲みで⽰し、添字で先⾏研究(⻘枠囲み)からの改善が⽰ されている(以下同じ。)。 n 本論⽂で強調されている5Kのみ記載 Ø Region︓rSumで +16.3 Ø Grid︓rSum +24.8 Ø Region+Grid︓rSumで +18.3 Ø Region︓rSumで +5.0 Ø Grid︓rSumで +9.0 Ø Region+Grid︓rSumで +8.1 15
◯ 実験結果(クロスデータセットにおける汎化) Ø 条件 • MS-COCOは画像内容の⼀貫性に重きを置き、 Flickr30Kは⽂章の記述が多様である ※ ♮はそれらのモデルの公開された事前トレーニング済みモデルを 利⽤した結果。 • トレーニングをMS-COCOで⾏い、Flickr30K でテストすることで、テキスト記述ドメイン が変わった場合のゼロショットの汎化能⼒を 確認 Ø 結果 • 3SHNetが最も⾼い性能を⽰した。 • 汎化能⼒が⾼いだけでなく、モデルの視覚的 特徴をローカル・グローバルで相互作⽤する というアーキテクチャ(VSeM・VSpM)が他の モデルに⽐べて優れていることを⽰す。 16
◯ 実験結果(推論速度) • 3SHNetでは事前に画像及びテキストの特徴抽出を⾏ い保存することで繰り返しの計算を削減し推論速度 を向上 • そのため、テキスト依存の⼿法(⻘囲み)やモダリ ティに依存しない⼿法(⾚囲み)と⽐べて性能・計 算効率において優位性を持つ • CMSEI*の推論速度の約10倍で性能も15ポイント程 度上昇 縦軸︓MS-COCO-5KにおけるType Regionの性能(rSum) 横軸︓1秒間に完了する画像/テキストのペアの数 • これらは画像・テキストのモダリティが独⽴してい る3SHNetの優位性を反映 17
◯ アブレーション研究(3SHNetの有効性) ※Type Regionの結果 • No5、6の⽐較︓Segが性能に貢献 • No5、7の⽐較︓Regに⽐べSegの貢献は低い • No1、No2、No3の⽐較︓VSeM及びVSpMを削除す るとrSumが悪化 • No4、5の⽐較︓VSpM及びVSeMの⽅が単純な特徴 の統合より性能に貢献 • セグメンテーション特徴(Seg)は性能に貢献するが、 Regに⽐べると低い • VSpM及びVSeMはSegの効果的な埋め込みを促進 • 3SHNetがセグメンテーションとの視覚的セマン ティックと空間的な相互作⽤を通じて画像表現の識別 性を向上させる 18
◯ VSeM及びVSpMの可視化 <VSeM> <VSpM> • Region(上側)、Grid(下側)のオブジェクトの可視 化(MS-COCO) • 主な物体の空間的位置の可視化(MS-COCO) • VSeMは、対応するセグメンテーションによって 導かれる主要な領域とグリッドに集中し、画像表 現能⼒を向上させる • 正確な視覚空間埋め込みは、画像内の主要なオ ブジェクト表現の能⼒と識別性をさらに向上さ せる。 19
◯ 検索性能の⽐較(3SHNetとVSE♾) Texts-to-Image Image-to-Texts • 画像検索はテキストのクエリに対応する画像の上位3つを左から順に記載 • テキスト検索は画像のクエリに対応するテキストの上位5つを記載 • いずれも正解は緑、不正解は⾚で強調されている • 両モデルの検索結果を⽐較すると3SHNetの⽅がより正確 20
◯ ⼤規模な事前学習モデルに関する議論 ※ MS-COCO-5kのテストセットにおける性能(region+Grid)の⽐較。𝑧はゼロショットの性能、Bs はミニバッチのサイズ。3SHNetはアンサンブルモデルの結果。 Ø 複数の⼤規模事前学習モデルと3SHNetの性能を⽐較 • 少ない計算リソースでそれなりに競争⼒のある結果 • UNITER(V100 16台)との⽐較では全ての項⽬で優れている • ALIGNのような強⼒なモデルに及ばないものの、今後⼤規模な データセットに対してVSeM及びVSpMを適⽤する⼿法を探求 21
◯ 参考⽂献 ・CMSEIの内容︓ Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval. https://arxiv.org/abs/2210.08908 ・GPO及びVSE♾ の内容︓Learning the Best Pooling Strategy for Visual Semantic Embedding. https://arxiv.org/abs/2011.04305 ・Bottom-Up Attentionの内容︓Bottom-Up and Top-Down Attention for Image Captioning. and Visual Question Answering https://arxiv.org/abs/1707.07998 ・ResNeXtの内容︓Aggregated residual transformations for deep neural networks. https://arxiv.org/abs/1611.05431 ・FPN(Feature Pyramid Network)の内容︓ Feature Pyramid Networks for Object Detection. https://arxiv.org/abs/1612.03144 22