[DL輪読会]MSCap: Multi-Style Image Captioning With Unpaired Stylized Text

139 Views

February 21, 20

#deep learning #Deep Learning #Image Captioning #Unpaired Stylized Text #Adversarial Learning Network #MSCap

スライド概要

2020/02/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP “MSCap: Multi-Style Image Captioning With Unpaired Stylized Text (CVPR2019)” [DL Papers] Yoshifumi Seki, Gunosy http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● タイトル: MSCap: Multi-Style Image Captioning With Unpaired Stylized Text ● 著者:Longteng Guo, Jing Liu, Peng Yao, Jiangwei Li, Hanqing Lu ○ 第一, 第二, 最終著者が中国科学院（日本で言う理研とか？）の機械学習チーム ○ WeChatのチーム ● 投稿先 ○ CVPR2019 ● 選定理由 ○ Caption生成研究は継続的に読んでいるので、以前StyleのあるCaption生成の研究を紹介したことあり ■ https://deeplearning.jp/stylenet-generating-attractive-visual-captions-with-styles/ ○ 2

https://deeplearning.jp/stylenet-generating-attractive-visual-captions-with-styles/

概要 ● スタイルのあるCaptionを生成する ○ ユーモラスなCaption、ロマンティックなCaptionなど ● 複数スタイルのCaptionを1つのモデルで生成できることを目指す ○ 過去の研究はあるスタイルのCaptionを生成するために一つのモデルを作っている ○ つまりユーモラスなCaptionを生成するモデルはユーモラスなCaptionしか生成できない ○ これは非効率であり、k個のスタイルを生成できるモデルを作るぞ〜！というのが今回の目的 ● Unpaired Styled Textを用いる ○ 画像とペアになっているStyled Textがあればよいが、それをアノテーションするのは大変だし拡張性がない ○ StyleのあるテキストのみでStyleを学習する ● Adversarial Learning Networkを用いる 3

Show and Tell [Vinyals 15] 次に出る語の確率を出力するLSTM cell

Show, Attend and Tell[Xu 15] ● ● Zの部分がattention要素 Eはembedding layer ○ ● 単語をベクトル化 h_tが系列的に伝搬していく Decoder

Context vector[Xu 15] ● ● 画像ベクタの重み付け画像のどの部分にどのぐらい注目するかという

Stochastic Hard Attention[Xu 15] ● ● Sは画像の区分数の次元をもつone-hotな vector α_{t, i}の確率でその次元が1になる ○ ● 多項分布 zは、注目する区分の画像ベクタになる

生成結果とattention[Xu 15]

attentionの位置によって結果が解釈できる[Xu 15]

10.

Adaptive Attention Model [Lu+ CVPR2017] Attentionがどこに着目するかを決めるのだから、着目しないという選択肢を考える 10

11.

Adaptive Attention Model [Lu+ CVPR2017] 11

12.

13.

1-βの値、つまり画像から生成する割合をPlotしたものであり、ofやonなどが小さくなっている。これをvisual grounding probabilityと呼ぶことにする文頭のaは比較的大きく、後半のaが小さいのは、後半のほうが数が自明だから？ 13

14.

StyleNet [Gan+ CVPR2017] ● 魅力的なキャプションを生成したい ○ ● LSTMのseq2seqのマルチタスクにインスパイアされている ○ ● ユーモア、ロマンティックという転移学習感ある感じちなみにStyleNetというプロジェクトは他にもある… 14

15.

Factored LSTM module ●

16.

17.

概要 (再掲) ● スタイルのあるCaptionを生成する ○ ユーモラスなCaption、ロマンティックなCaptionなど ● 複数スタイルのCaptionを1つのモデルで生成できることを目指す ○ 過去の研究はあるスタイルのCaptionを生成するために一つのモデルを作っている ○ つまりユーモラスなCaptionを生成するモデルはユーモラスなCaptionしか生成できない ○ これは非効率であり、k個のスタイルを生成できるモデルを作るぞ〜！というのが今回の目的 ● Unpaired Styled Textを用いる ○ 画像とペアになっているStyled Textがあればよいが、それをアノテーションするのは大変だし拡張性がない ○ StyleのあるテキストのみでStyleを学習する ● Adversarial Learning Networkを用いる 17

18.

Framework Overview 18

19.

Framework Overview 普通のCNN baseなモデル 19

20.

Framework Overview 20

21.

Caption Generation Module ● Caption生成で使われるのは(a)のinjecting mode ○ 画像とテキストのペアへの依存が大きく、unpairの学習には向いていない ● (B)のmerging modeを用いる ○ まずは画像無しでテキストのみでLSTMを学習し、その後 Multimodalな学習を行う ○ [Lu+, CVPR2017]` にインスパイアされている ○ 昔輪読会で読んでた ■ https://www.slideshare.net/DeepLearningJP2016/dlkno wing-when-to-look-adaptive-attention-via-a-visual-sentin el-for-image-captioning ○ 画像に注目するときとそうでないときを考えて画像に注目するかどうかのGateベクトルをつくる ■ is とか a とか of とか画像関係ないよね 21

https://www.slideshare.net/DeepLearningJP2016/dlknowing-when-to-look-adaptive-attention-via-a-visual-sentinel-for-image-captioning

22.

Caption Generation Module ● w_t: styleベクトルと単語ベクトルを結合したもの ○ 個人的にはもっとStyleを明示的に入れたほうがいい気もする (DeepFMとかの文脈で) ● m_t: LSTMのMemory cell state 22

23.

Caption Generation Module ● 最初にunpair textを学習するときはg_t=0とする ○ 普通のAttention付LSTM ● まずCaption付データPと、unpaired text P^uを使ってpretainする 23

24.

Framework Overview 24

25.

学習には3種類のLossを使う ● Adversarial Loss: 普通の ● Classification Loss: 生成したCaptionがスタイルに近づいているか？ ● Back-Translation Loss ○ Cycle GANっぽいアプローチ ○ minimizing the two losses along does not guarantee that generated captions accurately describe the content of its input images ■ それっぽい文になるけど、画像を表現しているかを考慮できていないよね ○ T(y, s) -> \hat{y_f}となるTransaction Modelを考える ■ TはNMTで実装する 25

26.

Framework Overview Adversarial Loss Classification Loss Back-Translation Loss 26

27.

学習には3種類のLossを使う 27

28.

実験 28

29.

● MSCapはStyleNetに全勝してる ○ 同じ半教師ありモデルとの比較 ● BLEU-nでは教師ありモデルに勝てていない ○ BLEUはn-gramベースなので、長いフレーズを当てるところでは勝てないのでは ● Positive/NegatibeはBLEU以外MSCapが一番いい ● Romantic/Humorousは長い文が多く、よりFlexibleである ○ 教師ありモデルのほうが評価がよくなりやすい ● PPL ○ Fluencyの判定基準 ○ 一番強い、良い文が生成できてる ● CLS：TextCNNをつかう, 97%の精度 ○ 圧倒的に強い ○ よいStyleが学習できている 29

30.

● TransはずすとPerxlexityとStyleが改善するがCiderがめっちゃ悪くなる ○ Cider : CVPR2015で提案された画像Caption生成専用の手法 ○ 画像との関連性がめっちゃ悪くなる ○ TransLossの目的に一致してる 30

31.

● 人手の比較 ○ 0 ~ 3でスコアをつけてもらう ○ 50画像に4つのCaption ○ 1つのCaptionに4人の評価者 ● 最高3だからいいよね ● 他の手法との比較はしてない 31

32.

33.

感想 ● Styleを考慮したCaption生成 ● TransLossはなるほど〜という感じ ○ 昔読んだ論文と関連するところが多くて、アハ体験あった ● 同時に複数スタイルできる！って強調してたけど、その意味というか強さはよくわからんかった ● 人手の評価、さすがに比較しないといみなくない？という気持ち 33