[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language

>100 Views

March 31, 17

スライド概要

2017/3/31
DeepLearning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DL Hacks輪読 Multi-Agent Cooperation and the Emergence of (Natural) Language 2017/03/31 黒滝 紘生

2.

書誌情報 - Multi-Agent Cooperation and the Emergence of (Natural) Language - Angeliki Lazaridou, Alexander Peysakhovich, Marco Baroni - ICLR 2017 Accept (Oral) Rating 7,7,7 - https://arxiv.org/abs/1612.07182 https://openreview.net/forum?id=Hk8N3Sclg&noteId=Hk8N3Sclg 2

3.

概要 - マルチエージェント間の対話によって,言語を習得させる枠組みを提案した - 2エージェント間で,簡単な画像当てゲーム (次ページ)を強化学習させる過程で, 一種の通信用シンボルを使わせることで,シンボルと画像の対応を習得させた - 言語習得には,大量の言語データに晒すことだけでなく,他者との対話が大事 人間と対話するエージェントの製作でも重要 - シンボルに画像の意味的性質をよりよく表させるため,設定をどう変えればよいか調べた - 更に,習得される符号を,人間の自然言語と結びつけるため, 人間の自然言語による教師あり学習を,元の強化学習に組み合わせる手法を提案した 3

4.

タスク:指示ゲーム(Referential games) - Senderエージェントは, 2つの画像のどちらが targetか教えられ,これを伝えるため symbolを送る Receiverエージェントは, symbolと画像から,どちらが targetか当てる 4

5.

指示ゲームの枠組み 1. 画像{i_1, ..., i_N}から,2つの画像を選ぶ (i_L, i_R).一方を"target" t 2. senderは入力 とする. を受け取る 3. senderはサイズKの辞書Vからシンボルを 1つ選び送る.senderのpolicy 4. receiverはシンボルから targetを当てる.receiverのpolicy 5. 正解 6. 損失関数 と呼ぶ と呼ぶ なら両者に報酬 1,間違いなら0 を最小化(Rは報酬関数) 5

6.

画像データ - McRae et al(2005)の概念セット - 20の大きいカテゴリ (e.g., animal, fruit/vegetable, vehicle...) - 463の具体的な概念 (e.g., cat, apple, car...) - https://link.springer.com/article/10.3758/BF03192726 - Imagenetから各概念につき 100画像ずつサンプル - 2つの概念から各 1画像ずつ選んで,片方を targetとする - 特徴量を得るため VGG Convnetにかけた.次の 2種類を実験した - top 1000次元 ソフトマックス (sm) - second-to-last 4096次元 全結合層 (fc) 6

7.

エージェント - senderは,agnostic (無知) とinformedの2種類を実験した - どちらもまず,画像 (特徴量)ベクトルを, ゲーム中に学習される埋め込み空間に飛ばす - agnosticは,そのままsigmoidして全結合 - informedは,2x1Convフィルタf個で2つの画像を まとめて飛ばしたあと, fx1フィルタで結合 (図はf=4) - senderとreceiverは,共に最終層で ギブス分布に変換され,シンボルが 1つサンプルされる 7

8.

学習 - 埋め込み空間 50次元 informed senderのフィルタ20 辞書サイズ 10と100で実験 - REINFORCEで強化学習 ミニバッチ32 - ゲーム回数 : 訓練50,000回 テスト10,000回 8

9.

結果 - どの設定でもうまく協調できるようになった (comm successが100%に近い) agnosticは2シンボルしか使ってないが, informedの方は多い(=自然言語っぽい ). purityとは,クラスタと (大)概念ラベルの一致度を示す指標. 最も強く反応したシンボルでクラスタリングしたとき, informedの方が,元の概念分類に近い. またagnosticでも,(2シンボルにも関わらず, )purityはランダムより高く出ている. 9

10.

結果 - informed senderの方が早く協調できるようになった. 10

11.

結果: 冗長性チェック - informed senderが数十ワード使っていると言っても,類語のような冗長の状態かもしれない 画像を行,シンボルを列にとって SVDして検証した. ある程度冗長にはなっているものの,複数の概念に対応していることがわかった. 11

12.

結果:画像を入れ替えた場合 - 同じImagenetクラス内で,senderとreceiverに見せる画像を代えても,うまく協調できる. - e.g. Imagenetのdogとして,senderにチワワ,receiverにボストンテリアを見せる. - これは,常識(common knowledge)の利用をエージェントから奪い, より高レベルの情報をやり取りさせることに相当する. - purityも上がっている 12

13.

結果:追加実験(4.1) - 同じImagenetクラス内で,senderとreceiverに見せる画像を代えても,うまく協調できる. - e.g. Imagenetのdogとして,senderにチワワ,receiverにボストンテリアを見せる. - これは,常識(common knowledge)の利用をエージェントから奪い, より高レベルの情報をやり取りさせることに相当する. - purityも上がっている 13

14.

結果: fcレイヤー特徴量と利用シンボルの関連 - ImageNetラベルが同じ画像たちの fcレイヤーを平均取って t-SNE 一緒に送られるシンボルで色分け 似た特徴量とにはある程度同じ色のシンボルが使われている 左は最初の実験の id4,右は追加実験の id2 14

15.

自然言語への接地 - より会話エージェントに近づけるため,人間の自然言語と接地したい - 今までのゲームと, ImageNetのラベルによる教師ありタスクを,等確率で切り替えた - - 教師あり側は,協調通信は助けず,ただ自然言語と画像を結びつけてくれるだけ 教師あり学習で学んだラベルに対応するように,シンボルを使ってほしい 15

16.

学習設定 - informed sender, fc, Vocabulary 100 - Table1のid2 - Imagenetから100ラベル - senderのゲーム埋め込みレイヤーに, 100ラベルに対応したソフトマックスを乗せて予測 - ゲーム埋め込みレイヤーはゲームとラベル識別で共有 16

17.

結果 - 同様に10,000回で協調できる (ゲームだけで数えると 5,000回) - 使用シンボルは 88,purityは70%に向上 - 学習で見た教師ありラベルが使われていた 632ペアのうち47%で対応するシンボルを利用 - 教師あり学習セットに含まれないラベルについても,解釈可能性が向上 - - なんとか似たシンボルで通信を試みる ReferItGameデータセットという,人間に同じタスクをさせて, 矩形選択とその表現でアノテーションさせたデータでも,うまくできた 17

18.

結果: 人間の評価 ReferItGameデータについて, senderが出したシンボルに対応する Imagenetラベルを人間に見せ, target(緑枠)を当てさせたところ, 68%の正解率となった. なんとか似たシンボルを使って ReferItGameデータを伝えようとしている. 18