[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles

>100 Views

July 07, 17

#deep learning #Artificial Intelligence #Deep Learning #Natural Language Processing #Image Captioning #StyleNet

スライド概要

2017/7/7
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 88.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 61.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 41.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 40.9K

各ページのテキスト

CVPR’17 StyleNet: Generating Attractive Visual Caption with Style Chuang Gan@IIIS, Tsinghua University Zhe Gan@Duke University Xiaodong He@Microsoft Research Redmond(MSRR) Jianfeng Gao@MSRR Li Deng@MSRR Yoshifumi Seki@Gunosy Inc. DeepLearning.jp 2017.07.07

自己紹介 ● 関喜史 Gunosy 共同創業者データ分析部研究開発チーム (仮) 東大松尾研客員研究員 , 工学博士(2017年3月卒) ○ ○ ○ ● ● 研究テーマ: ニュース推薦システムのサービス応用について関心領域推薦システム , ユーザ行動分析 ○ ● 趣味 ○ アイドル、日本酒、将棋

概要 ● 魅力的なキャプションを生成したい ○ ● LSTMのseq2seqのマルチタスクにインスパイアされている ○ ● ユーモア、ロマンティックという転移学習感ある感じちなみにStyleNetというプロジェクトは他にもある…

Show and Tell [Vinyals 15] 次に出る語の確率を出力する LSTM cell

Show, Attend and Tell[Xu 15] ● ● Zの部分がattention要素 Eはembedding layer ○ ● 単語をベクトル化 h_tが系列的に伝搬していく Decoder

Context vector[Xu 15] ● ● 画像ベクタの重み付け画像のどの部分にどのぐらい注目するかという

Stochastic Hard Attention[Xu 15] ● ● Sは画像の区分数の次元をもつone-hotな vector α_{t, i}の確率でその次元が1になる ○ ● 多項分布 zは、注目する区分の画像ベクタになる

Stochastic Hard Attention[Xu 15] ● p(y|a)の対数尤度を最大化したい ○ ● ある画像aのときに、あるキャプション yを生成する確率イェンセンの不等式で下界を定める ○ 下界が最大化できれば、 p(y|a)も最大化できるよね

Stochastic Hard Attention[Xu 15] ● Wを直接求めるためにWで微分 ○ 第2項の微分を展開すると積の微分公式になる

10.

Stocatic Hard Attention[Xu 15] ● Sのサンプルを生成してモンテカルロ法で求める ○ ● Sはαに従う多項分布なのでそれに従って生成

11.

● モンテカルロ法による勾配の推定のバリアンスを減らしたい ○ ○ ○ ● ● [Ba 15][Mnish 14]とかで使われている手法 ■ 画像へのattention model ミニバッチごとにベースラインを更新していく λはハイパーパラメータでクロスバリデーションできめる ■ 何をクロスバリデーションするんだろう多項分布のエントロピー項を導入この式は強化学習に似ているらしい

12.

Deterministic “Soft” Attention[Xu 15] ● ● 結論からいうとHardのほうがよかったので、詳しくは述べない Hardは多項分布だったけど、期待値を考える ○ ○ 1点だけでなく、画像をひろく捉える (ゆるく、ひろく ) 機械翻訳でよく使われている

13.

Factored LSTM module ●

14.

15.

Training Style Net ● 2つのタスクを学習する ○ ○ ● ● S(style specific factor)以外は1と2で共通にする Captionとimageのペアはinitial vectorをCNNの最終層に ○ ● captionとimageのPairを学習する言語モデルとして学習するそうでないのはランダムノイズ単語はEmbeddingしている。この重みも共有する

16.

Flicker Styled Caption Dataset ● Amazon Mechanical Turk使う ○ ● 最初はユーモラスなやつとロマンティックなやつ書けと直接言ってた ○ ○ ● 大変だったので聞いてほしいキャプションのクオリティをコントロールするのが難しい画像に関係ないフレーズや語をたびたびアノテータはつける次はあるキャプションをユーモラスに、ロマンティックに書き換えろという問題にした ○ ○ さらに、キャプションを書き換える例も示したそれでうまくいった

17.

Quality Control ● Least ○ ○ ● QualityをチェックするReviewerをAMTで依頼 ○ ○ ● 500 HITS 90% accuracy 各キャプション、 3人のワーカーに、そのキャプションが任意の styleになっているかを評価させる 2人以上賛同したもののみ利用する Flicker Style 10K ○ ○ ○ ○ ○ Image: 10K 7K for training, 2K for validation, 1K for testing Training/Validation ■ ユーモラス、ロマンティックなキャプションが 1つずつある Testing ■ ユーモラス、ロマンティックなキャプションが 5つずつある Flicker 30Kのfactual captionもつかう ■ 5つずつある

18.

Experiment Settings ● ● ● 画像からResNet152の最終層の出力2048次元のベクトルを得て、300次元のベクトルに変換する 2回以上出現した語でvocabraryを作り、one-hot vectorにして、300次元に embeddingする BLUE, METEOR, ROUGE, CIDErで評価 ○ ● Caption生成で一般的なもの。要約にインスパイアされてる BaseLine ○ ○ ○ ○ NIC(show and tell) Flicker 10KのFactualだけを用いた CaptionBot: MSの商用サービス Multi-Task: multi-task LSTM Fine-tuned: 行列Sを考慮しない(すべてのパラメータが共有された状態 )で、Language Modelの学習をする

19.

Implementation Detail(1) ● ● ● ● ● ● ● Theano Adamで学習 Batch size: captioningは64, language modelは96 Learning rateは0.0002と0.0005 LSTM cellとfactored matrixを512にすべてのパラメータは一様分布で初期化 One epochごとに、タスクを切り替える ○ ○ ● ● キャプション生成⇔言語モデルを Epochごとに繰り返してるユーモアとロマンティックを組み合わせて trainingしてみたけど、よくならなかった 30 epochで収束キャプションはbeam size5のビームサーチで生成

20.

Implementation Detail(2) ● ● ● ● ● Caption Bot以外はResNet152の最終層の出力で作り直し NICはbatch size 64で20 epochで停止 Caption BotはMicrosoft Computer Vision APIを利用 Fine-Tuned modelでは20 epochを学習率0.0002でimage captioningを行い、学習室0.0005でlanguage modelを訓練。 MultiTask BaseはStyleNetと一緒な設定 ○ 30 epochで収束した

21.

Experiment Results

22.

23.

Human Evaluation ● ● ● NIC, CaptionBot, StyleNet(Romantic/Humorous)で5つずつ生成どれが一番”魅力的か”聞く 85%がStyleNetの結果を選んだ

24.

Video Captioning ● 3D-CNN[D.Tran+2015] ○ ● 1970 Youtube Clips ○ ○ ● ● 1M Dataset[A. Karpathy+2014] Each clip 40 captions 1,200 video training, 100 video validation, 670 video captioning その他は同じ設定で学習 Baseline ○ Captioning data使って学習した Standardモデル

25.

Video Captioning ● 人間による評価 ○ ○ ● BaseLineとStyleNetから3 つずつ生成ビデオとキャプションをみせてどれが魅力的か聞く 80%以上がStyleNetのほうが魅力的だと回答

26.

結論 ● ● ● ● Factored LSTMを提案 End-to-endのframework StyleNetを提案定量的、定性的アプローチによって有効性を確認した今後、新たなデータも加えた形で、本データセットは公開する予定

27.

お気持ち ● ● ● ● データセットの作り方、LSTMのお気持ちに沿って作られている気がしたこんなシンプルなのでいけちゃうのすごい一方でキャプション生成のコアの部分はLSTM並べるのがまだSOTAなのかなと？重みをFactorizeして共有しながら転移学習させるのは、いろんな領域で応用が効きそう