分散表現に基づく文書要約#yjdsw1

>100 Views

December 21, 15

スライド概要

http://yahoo-ds-event.connpass.com/event/21903/

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Data & Science Workshop 「分散表現に基づく文書要約」 小林隼人 2015/11/11

2.

自己紹介 P2 • 名前: 小林隼人(ハヤト・コバヤシ) • 所属: Yahoo! JAPAN 研究所(‘13年入社) 言語処理・機械学習室 • 略歴: 九大→東北大→東芝→ヤフー • 研究歴: ロボット→学習理論→言語処理 • 最近の興味: 文書要約・生成 • 最近の成果(がんばってますアピール) • ACL'14, COLING'14, PACLING'15, WWW'15, ECML-PKDD'15, SIGDIAL'15, EMNLP'15, WSDM'16, … 今日発表する内容

3.

概要 • 論文 – Hayato Kobayashi, Masaki Noguchi, Taichi Yatsuka, “Summarization Based on Embedding Distributions”, EMNLP 2015 • 内容 – 最近流行っている分散表現を用いて類似度を計 算し文書要約(重要文抽出)する手法を提案 – 応用例 • 知恵袋の回答の要約 • 検索結果のスニペット • ツイートのまとめ作成 P3

4.

分散表現 P4 • 単語やテキストの実数ベクトル表現 – 意味の近い単語は近くにマッピング 車 犬 猫

5.

有名な例 P5 • king – man + woman ≒ queen king queen N次元空間に 意味を埋め込 めている? man woman

6.

今回考える問題 P6 • 文書要約を最適化問題として定式化 元文書D 要約S 文 重要文 max 𝑓 𝑆 𝑆⊂𝐷 s.t. 𝑐 𝑆 ≤ ℓ ・・・ 要約の良さを表す関数 文字数制限など ここに分散表現に基づく“意味”類似度を使う

7.

劣モジュラ最適化 P7 • 劣モジュラ性 – 連続関数の凸性に対応する集合関数の性質 – 貪欲法でほぼ最適(1-1/e)な近似が得られる – [定義]集合関数𝑓: 2𝑋 → ℝが劣モジュラ ⇔ 𝑆1 ⊂ 𝑆2 ⊂ 𝑋 かつ𝑥 ∈ 𝑋 ∖ 𝑆2 ならば、 𝑓 𝑆1 ∪ 𝑥 − 𝑓 𝑆1 ≥ 𝑓 𝑆2 ∪ 𝑥 − 𝑓 𝑆2 例: センサー配置問題(監視範囲の最大化) f( )-f( )≧f( )-f( )

8.

要約の場合 P8 • 元文書の内容を網羅したい→劣モジュラ 要約A ⊂ 要約B ⇒ f(A∪{s})-f(A) 要約A+文s 文s ≧ f(B∪{s})-f(B) 要約B+文s 文s

9.

修正貪欲法[Lin&Bilmes, ACL2010] • 要素のコストを考慮した貪欲法 𝑓𝐶 𝑠 ≔ 𝑓 𝐶 ∪ 𝑠 −𝑓 𝐶 𝑤𝑠 は要素𝑠の重み (単語数、バイト数など) P9

10.

既存研究と本研究 P10 • [Lin&Bilmes, ACL2010] – TFIDF重みで文の類似度の和を計算 – 文書生成的手法よりも高い性能[Lin&Bilmes, ACL2011] • [Kageback+, CVSC2014] – 分散表現で文の類似度の和を計算 – Lin&Bilmesよりも高い性能 • 本研究(課題と解決法) – 文書の類似度に基づく目的関数を2つ提案 • 個別スコアの高い文集合が全体最適とは限らない

11.

文書ベクトルに基づく類似度 P11 • 元文書と要約のコサイン類似度で定義 𝑓 𝐶𝑜𝑠 𝒗𝐷 : = 𝒗𝐶 ⋅ 𝒗𝐷 𝐶 ≔ 𝒗𝐶 𝒗𝐷 𝑠∈𝐷 𝑤∈𝑠 𝑤 文書と要約のベクトルは 単語ベクトルの和で定義 定理1.𝑓 𝐶𝑜𝑠 は劣モジュラ関数ではない 元文書 要約

12.

点分布に基づく類似度(1) • 分散表現を点分布のまま扱う – 単一文書ベクトルは作らない – (文の分布でも良い) P12 要約Aの 点分布 元文書の 点分布 要約Bの 点分布 f(要約A)>f(要約B) となるようにfを定義

13.

点分布に基づく類似度(2) P13 • 直感:分布が似ている⇒近傍点が近くにある 要約Aの 点分布 要約Bの 点分布 最近傍点までの距離の(負の)和でfを定義する

14.

点分布に基づく類似度(3) P14 • 元文書分布の各点における、要約分布上の 最近傍点までの距離の和で非類似度を表す 𝑓 𝑁𝑁 𝐶 ≔ − 𝑔(𝑁 𝑤, 𝐶 ) 𝑠∈𝐷 𝑤∈𝑠 𝑁 𝑤, 𝐶 ≔ min 𝑑 𝑤, 𝑣 𝑣∈𝑠:𝑠∈𝐶 𝑤≠𝑣 関数gは単調非減少な 距離のスケーリング関数 関数Nは単語wからの 要約C中の最近傍距離 定理2.𝑓 𝑁𝑁 は単調劣モジュラ関数である 定理3. 𝑔 𝑥 = ln 𝑥のとき𝑓 𝑁𝑁 の大小は漸近的にKLDと一致する 元文書𝐷、要約𝐶1 , 𝐶2 について、 𝐷 ∽ 𝑝, 𝐶1 ∼ 𝑞, 𝐶2 ∼ 𝑟 とすると漸近的に 𝔼[𝑓 𝑁𝑁 𝐶2 ] − 𝔼[𝑓 𝑁𝑁 (𝐶1 )] > 0 ⇔ 𝐷𝐾𝐿 (𝑝 ∥ 𝑞) − 𝐷𝐾𝐿 (𝑝 ∥ 𝑞) > 0 ([Perez-Cruz, NIPS2009][Wang+, TIT2009]などを使う)

15.

データセットと評価指標 • Opinosis Dataset P15 [Ganesan+, COLING2010] – 51トピック(ホテル、車、製品など)のユーザレビュー – 各トピックに50~575文 – 各トピックに4,5人が作ったサマリ(1~3文) • ROUGE-N指標 [Lin, WAS2004] – 人が作ったサマリとのNグラム共起割合 – 翻訳の評価で使われるBLEUに似た評価値 • BLEUは適合率重視、ROUGEは再現率重視 – ROUGE-1が最も人のサマリと当てはまりが良い • [Lin&Hovy, NAACL2003]

16.

実験結果 • • • • • P16 DocEmb: 修正貪欲法+ 𝑓 𝐶𝑜𝑠 (文書ベクトル) EmbDist: 修正貪欲法+ 𝑓 𝑁𝑁 (点分布) s.t. 𝑔(𝑥) = ln(𝑥), 𝑥, 𝑒 𝑥 SemEmb: [Kageback et al. CVSC2014] TfIdf: [Lin and Bilmes, ACL2011] ApxOpt: 修正貪欲法+ROUGE-1 近似最適解 提案法 既存手法 EmbDistが最も適した評価指標ROUGE-1で最高性能

17.

まとめ P17 • 分散表現に基づく文書類似度を提案し、比較実 験により提案手法の優位性を示した • 今後の課題 – クエリを考慮した類似度 • 検索結果の要約に応用 • 歪めた分布のKLD? – Earth Mover’s Distance(EMD)との関係 • 𝑔(𝑥) = 𝑥のときEMDの下界になる[Cusner+, ICML2015] – 実数空間の技を言語処理に使う

18.

P18 • ご清聴ありがとうございました! EMNLP2015会場の様子(リスボン)