[DL輪読会]DeepStyle: Multimodal Search Engine for Fashion and Interior Design

>100 Views

February 09, 18

スライド概要

2018/2/9
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DeepStyle: Multimodal Search Engine for Fashion and Interior Design Ryosuke Goto (VASILY, Inc.) 1

2.

書誌情報 著者 • - Ivona Tautkute, Tomasz Trzcinski, Aleksander Skorupa, Lukasz Brocki, Krzysztof Marasek ポーランドの大学とITベンチャーの研究 選定理由 • - 画像、テキスト、スタイルを扱う高度な検索をwebサービスとして実装している • http://stylesearch.tooploox.com - 評価指標 AILSが参考になる 2

3.

概要 Image, Text, Contextのマルチモーダル検索において • - Contextの適合性をEnd-to-Endで学習するネットワークを提案 - Contextを考慮した検索結果指標において、優れた性能を示す • 提案手法はwebアプリケーションとして実装・公開 • 家具のIKEAデータセットは独自のもので将来的に公開予定 http://stylesearch.tooploox.com/ 3

4.

背景 “Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data”(Li et al. 2017 • - 優れたOutfitを生成するモデルをEnd-to-Endの学習により実現 - マルチモーダルな情報はOutfitの良し悪しの精度を上げるために利用 - Contextを考慮した検索の実装には向かない Outfit アーキテクチャ 4

5.

背景 “What Looks Good with my Sofa: Multimodal Search Engine for Interior Design”(Tautkute et al. 2017) • - 物体検出と、Image, Context, Textのembeddingの組み合わせにより画像検索システムを実現 - Visual SearchとContext Searchの結果をブレンドし、text queryの類似度でソート - Image, Context, Textはそれぞれ独立にembedding アーキテクチャ ブレンダー 5

6.

データセット IKEA dataset Polyvore dataset ・2193 items ・82229 items ・text description ・text description ・10 categories ・room context ・ほとんどのitemsが複数のroomに含まれる ・85 categories ・outfit context ・約30%のitemsが複数のoutfitに含まれる 6

7.

本研究 モデル1:DeepStyle • - ResNet50でimage featureを、word2vecでtext featureを抽出 - 2つを結合した特徴量ベクトルでカテゴリ判別問題を解く - このモデルではcontextの情報は扱っていない アーキテクチャ 7

8.

本研究 モデル2:DeepStyle-Siamese • ResNet50 + word2vec - DeepStyleをSiameseにして、contrastive lossを加える - IKEAの場合 • 同じroomに登場する家具のペアは正例 • 同じroomに登場しないペアは負例 Polyvoreの場合 • 同じoutfitに登場するitemのペアは正例 • 同じoutfitに登場しないペアは負例 8

9.

評価指標 Similarity Score • item p1とp2を一緒に利用した場合の相性の良さの指標 • p1, p2ペアが実際のContextに同時に出現する割合 • titleのkeywordが被った場合1あとは0 Average Intra-List Similarity • - k番目までの検索結果の全ペア同士の相性の良さの平均をとったもの 9

10.

各ネットワークによる検索精度 DeepStyleアーキテクチャが平均スコアにおいて優れた性能 10

11.

各ネットワークによる検索精度 DeepStyleアーキテクチャが平均スコアにおいて優れた性能 11

12.

まとめ VSEやBlendingに対し、DeepStyleの検索性能が高いことがわかった • - Contextの情報を加えることで、検索性能が上がるカテゴリもある 12