【DL輪読会】Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

>100 Views

October 29, 21

#deep learning #Deep Learning #Communication Agent #Navigation #Vision-Dialog Navigation #Self-supervision

スライド概要

2021/10/29
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation 発表者: 阿久澤圭 (松尾研D3) http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • タイトル：Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation • 著者：Yi Zhu, Yue Weng, Fengda Zhu, Xiaodan Liang, Qixiang Ye, Yutong Lu, Jianbin Jiao • Sun Yat-sen University, Noahʼs Ark Lab, Huawei Technologies, 他 • 発表：ICCV2021 • 概要：アノテーションなしで自問自答を行うナビゲーションエージェント

背景 • Vision-Dialog Navigation（VDN）： • 対話履歴を訓練データとして利用するナビゲーション • エージェントの目的：特定の物体（ターゲット）へ到達 • 対話履歴（Dialog）： • クラウドソーシングによって収集された訓練データ • ターゲットへの道筋を知るAnswerと，ナビゲーションを行うQuestionerの二人の人間が協調して作成

背景 • VDNの既存研究：会話履歴の訓練データを様々な方法で利用する • [Thomason+2020] 会話履歴をsequence-to-sequenceの方策への入力に利用 • [Roman+2020] 会話履歴で言語モデルを事前訓練 -> 各時刻ごとに会話を生成 • [Nguyen+2019] 決められた領域にエージェントが移動するとオラクルからヒントが貰える • VDNの既存研究の限界： • オラクルとのコミュニケーションが柔軟でない（例：事前に定義した場所でのみ質問できる • 高価な対話アノテーションを必要とする

関連研究：Cooperative Vision-and-Dialog Navigation Dataset (CVDN) [Thomason+2020] • CVDN：人間の対話を元にしたナビゲーションデータセット • クラウドソーシングにより作成 • 目的：ナビゲーションにおいてエージェントと人間の協調を扱う • c.f. Vison-and-language navigation：対話=協調を扱わない • 限界：対話の内容や対話の行われる位置が限られている

関連研究：HANNA [Nguyen+2019] • HANNA：特定の位置にいくと，オラクルがサブタスク（現在地とゴールまでの中間地点へ向かう言語指示）を教えてくれるシミュレータ環境 • 限界：特定の位置でしかオラクルとのコミュニケーションを行えない，シミュレータの作成コスト

研究目的・提案内容など • 目的： • 適応的にコミュニケーションを取るエージェントを開発したい • 人手によるアノテーションはなるべく減らしたい • 提案：オラクルに対して，いつ，どのような質問を行うかを学習するエージェント • 質問文：有益なフィードバックを得るための自然言語による質問 • WeTAモジュール：オラクルへの質問の有無を選択 • WaTAモジュール：オラクルへの質問内容を決定 • 学習方法：リッチな対話履歴を利用せずに学習（発表者的見解：self-supervised）

問題設定 • Notation： • ターゲット t0：ナビゲーションのゴールに相当する物体 • 観測 Xt = N=36 {xi,t}i=1 ：N個の方角についての画像特徴量（Resnetの中間層の出力） • アクション at：視野内のノードへの移動 • 学習：強化学習（RL）＋模倣学習（IL） • つまり，エキスパートの軌道も得られるし，シミュレータ内でのRLも可能

提案手法：全体像 ③ ① ② ① Wether To Ask (WeTA)：質問をするかどうかの判定 ② What To Ask (WaTA)：質問内容の決定 ③ Action Decoder：ナビゲーションのための移動位置を決定する方策

10.

11.

Whether to Ask • 入力：現在の状態 ht （過去の画像観測とターゲットなどの埋め込み） • 出力：質問を行うかどうかのBinary bt • 教師データ：アクションのエントロピー yt = a onehot([H(pt ) < ϵ]+) => アクションの不確実性が高いと質問 • 目的関数： argminπϕLWeTA(bt, yt; πϕ) = − 𝔼yt[log bt]

12.

13.

What to Ask: 質問候補生成 • 前提：エージェントは様々な方角について合計N=36個の画像観測を持つ • 観測 Xt = {xi,t}Ni=1 • 訓練するモデル：xi,t を入力に，質問文 ci,t を出力するエンコーダーデコーダーモデル • Ground Truthの質問文の作り方： • 手順1：各画像観測 xi,t にobject localization networkを適用 => 物体名[Obj]と方角[Dir]を取得 • 手順2：テンプレートを元にN個の質問候補を生成 • e.g., Shoaled I go [Dir] to the [Obj]?

14.

What to Ask：質問候補からの選択 • N個の質問候補について，どれを実際に利用するかのスコアベクトル Q at を算出 • Language Information: 質問候補の埋め込み Dt とターゲット埋め込みt̃0の相関 • Vision Information: 質問候補の埋め込み Dt と画像観測 xt,i ∈ Xt の相関

15.

What to Ask：回答文について • A 回答スコアベクトルat ：N個の質問候補について，yesかnoかで答える • 計算方法：未来の観測情報と質問文の類似度の計算 • 例えば，”Shoaled I go [Dir] to the [Obj]?”の質問が正しいかどうかは，未来の観測を見ればわかるはず

16.

What to Ask：学習 • 質問スコアベクトルと回答スコアベクトルのKL距離最小化 • 学習初期は，回答スコアベクトルが教師となる • 学習後は，質問スコアベクトルが，各質問の確信度を表現する

17.

18.

Where to Go • 方策の入力：履歴ht, アクションat−1，観測Xt，移動可能な位置Xt • 履歴：質問スコアが最も高い質問文の特徴量 dt,i を利用して更新

19.

最適化 • 強化学習と模倣学習を組み合わせて行う • 模倣学習：WeTA, WaTA, ナビゲーション方策の訓練 • 強化学習：WeTA, ナビゲーション方策の訓練

20.

実験 • • データセット：CVDN + REVERIE • どちらも室内でのナビゲーション • CVDNでは対話履歴，REVERIEでは言語指示が与えられる評価指標： • Goal Progress ：ゴールに向けて何m近づいたか • Success Rate：タスクの達成率

21.

Ablation Study: WeTA • Non-learning Agentとの比較： => WeTAを学習する方が良い • Learning Agent間の比較： => 提案アーキテクチャが良い

22.

Ablation Study: WaTA • ベースラインRMM：質問文をエンコーダー・デコーダーで生成 • テンプレートを使った提案手法の方が性能がよい

23.

Ablation Study: WeTA and WaTA • WeTAやWaTAを学習しない場合の性能への影響

24.

質問文の正しさ • 訓練済みモデルでは，62.4%の質問文が，ターゲットへの方向とマッチ

25.

他手法との比較：CVDN • 下3つはDialogを利用した手法 • 提案手法は，Dialogを利用しない（ターゲットの情報しか使わない）にもかかわらず同程度の精度

26.

他手法との比較：REVERIE • 既存手法は言語指示を利用 • 提案手法はtargetのみを利用 • 提案手法が最も良い

27.

定性評価 • ナビゲーションの各時刻で，質問を行う確率と報酬 • 「報酬が低い -> 質問を行う -> 報酬が高くなる」というサイクルを確認

28.

定性評価 • 赤線がエージェントの経路 • 途中で重要な質問をいくつかしている

29.

まとめ • 提案：人手によるアノテーションに依存せず，いつ，どのようなコミュニケーションをとるかを適応的に決定するエージェント • 結果：対話履歴データなしで学習し，ターゲットのみを利用するにもかかわらず，対話履歴データなどを利用したベースライン手法と同程度の性能を達成した • 発表者の感想： • 「Vision-and-language + アクション（または時系列）」が得られるような状況で自己教師あり学習をどう行うべきかという点について，示唆が得られる内容だと感じた • 提案手法では方策への入力に「最もスコアの高い質問文」を利用している，つまり自問自答の結果を利用している．他人の回答を利用するような拡張が面白そうだと感じた

30.

参考文献 • JesseThomason, MichaelMurray, MayaCakmak, and Luke Zettlemoyer. Vision-anddialog navigation. In Proceedings of the Conference on Robot Learning (CoRL), pages 394‒406, 2020. • Homero Roman, Yonatan Bisk, Jesse Thomason, Asli Celikyilmaz, and Jianfeng Gao. Rmm: A recursive mental model for dialog navigation. In Proceedings of the Confer- ence on Empirical Methods in Natural Language Processing (EMNLP), pages 1732‒1745, 2020 • Khanh Nguyen and Hal Daumé III. Help, anna! visual navigation with natural multimodal assistance via retrospective curiosity-encouraging imitation learning. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 684‒695, 2019.