漫画のセリフと発話者対応付けデータセットの構築とその分析

209 Views

September 26, 22

スライド概要

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

埋め込む »CMSなどでJSが使えない場合

各ページのテキスト
1.

漫画のセリフと発話者対応付け データセットの構築とその分析 櫻井 翼 伊藤 理紗 明治大学 阿部 和樹 中村 聡史 総合数理学部

2.

好きな(最近読んだ)コミック 亜人 SPY × FAMILY サマータイムレンダ クズの本懐 怪物事変 推しの子 ワンパンマン ハッピーシュガーライフ 炎炎ノ消防隊 嘘喰い Dr.STONE かぐや様は告らせたい チェンソーマン 堀さんと宮村くん 僕のヒーローアカデミア 僕らはみんな河合荘 ジョジョの奇妙な冒険 五等分の花嫁

3.

背景 コミックの構成要素の認識 コマの領域、セリフの領域、登場人物の顔の抽出 Frame Text Face Text ©赤松健「ラブひな」

4.

背景 コミックの構成要素の認識が必要 ⚫ コマの領域、セリフの領域、セリフの内容、擬音語や擬態語、 登場人物の名前や顔、表情や服装、セリフの話者 電子コミックを活かした研究・サービスの増加 ⚫ 自動翻訳、内容にもとづく推薦・検索、ネタバレ防止 内容に合わせた翻訳 (Mantra) ©赤松健「ラブひな」

5.

関連研究 コミックの構築要素を利用した研究 ➔ コミックのコマ間のリンク関係によるコマの重要度推定についての一検証 [平岡ら 2018] ©伊藤伸平

6.

必要なデータセット セリフとキャラクタの関係に着目 機械によって自動で対応付けを行う Text Face Text ©赤松健「ラブひな」

7.

関連研究 Manga109 データセット ⚫ 日本のプロの漫画家による 109冊の漫画にアノテーションが付与されたデータセット ➔ Sketch-based manga retrieval using manga109 dataset [Matsuiら 2017] 4種類のアノテーション ⚫ コマの位置 Frame Text Face Body Text ⚫ 体の位置とキャラクタ名 ⚫ 顔の位置とキャラクタ名 ⚫ テキストの位置と文字列 ©赤松健「ラブひな」

8.

関連研究 Manga109 データセット データ数は多いが、発話者情報がない eBDthequeデータセット 発話者情報はあるが、データ数が少ない ➔ eBDtheque: A Representative Database of Comics [Rigaudら]

9.

関連研究(発話者の自動推定手法) 吹き出しのしっぽからの距離による推定 ➔ Speech balloon and speaker association for comics and manga understanding [Rigaudら 2015] ©進藤ウニ「日常スープ」

10.

関連研究(発話者の自動推定手法) 吹き出しのしっぽからの距離による推定 ➔ Speech balloon and speaker association for comics and manga understanding [Rigaudら 2015] しっぽ ©進藤ウニ「日常スープ」

11.

関連研究(発話者の自動推定手法) 吹き出しのしっぽの方向からの推定 ➔ データドリブンなアプローチを用いた漫画画像中の吹き出しの話者推定 [山本ら2018] ©進藤ウニ「日常スープ」

12.

関連研究(発話者の自動推定手法) 吹き出しのしっぽの方向からの推定 ➔ データドリブンなアプローチを用いた漫画画像中の吹き出しの話者推定 [山本ら2018] あらかじめ分析を行ったうえで 手法を確立する必要 ©進藤ウニ「日常スープ」

13.

先行研究 データセット構築システム セリフと発話者の対応付けデータセットを構築

14.

先行研究 データセット構築システム セリフと発話者の対応付けデータセットを構築 構築手法 ⚫ Manga109データセットにおける全ての作品・セリフ ⚫ 1冊あたり2名がアノテーション付与(109 冊×2 名分) アノテーションの付与者によって ブレが生じる可能性

15.

アノテーション付与の手間 10冊ごとに約7万件のアノテーションが必要… 各セリフにおける 10冊分のセリフ× 5 名 = 67,850 ≒ 約7万件 アノテーション付与の必要人数を明らかに ➔ Manga109での1冊あたりの平均発話数:1,357件

16.

目的 アノテーション付与者数の拡張を行った セリフ・発話者対応付けデータセットを分析 話者推定に向けたコミックの特性を明らかに Text Face Text ©赤松健「ラブひな」

17.

セリフ・発話者対応付けデータセット データセット(前回) ⚫ 学生 33 名(著者含む) ⚫ 1つセリフに対して 2 名が評価×109冊分(計295,836件) データセットの拡張 ⚫ 協力者56名により、計749,856件のアノテーション付与 ⚫ 1つセリフに対して平均約 5 名が評価

18.

セリフ・発話者対応付けデータセット データセットの拡張結果 評価者ごとのアノテーション付与数 Manga109 総発話数147,918件 ア ノ テ ー シ ョ ン 件 数 付与数が少ない ↓ ブレの可能性あり アノテーション件数でソートしたアノテータのID

19.

データセットの分析 評価の比較 15.8%の一致率の低下が見られる 意見 内容 同じ人物を選択 一致 データ数 意見 内容 同じ人物を選択 128,502件 86.9% 3,531件 2.4% 414件 0.3% 「不明」を選択 異なる人物を選択 9,720件 6.6% 異なる人物を選択 「不明」を選択 2,433件 1.6% その他を選択 3,318件 2.5% 「ナレーション」を選択 「不明」を選択 不一致 割合 前回の評価 (2名) 一致 不一致 データ数 割合 105,238件 71.1% 2,654件 1.8% 30件 0.0% 25,385件 17.2% 5,042件 3.4% 874件 0.6% 「ナレーション」を選択 「不明」を選択 その他を選択 今回の評価 (平均5名)

20.

データセットの分析 評価の完全一致率の推移 アノテーション付与人数が 2 名では不十分な可能性 約10%

21.

データセットの分析 評価一致度指標 ⚫ variation:評価の分かれたキャラクタ数 ⚫ max_match:最大でどの程度評価が一致していたのか variation= 2 max_match=0.8 (8名/10名) 8名 2名 ©加藤 雅基「ARMS」

22.

データセットの分析 評価一致度指標 ⚫ variation:評価の分かれたキャラクタ数 ⚫ max_match:最大でどの程度評価が一致していたのか 10名 variation= 1 max_match=1.0 (10名/10名) ©赤松健「ラブひな」

23.

データセットの分析 評価一致度指標 ⚫ variation:評価の分かれたキャラクタ数 ⚫ max_match:最大でどの程度評価が一致していたのか 1 2 × 𝑚𝑎𝑥_𝑚𝑎𝑡𝑐ℎ × 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 評価一致度指標 = 1 𝑚𝑎𝑥_𝑚𝑎𝑡𝑐ℎ + 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 値が低いほど評価にブレが生じている

24.

データセットの分析 評価一致度指標 各作品における指標値の平均

25.

データセットの分析 評価一致度指標 特定の作品における指標値の分布 ARMS 女王蟻

26.

データセットの分析 具体的な場面(戦艦に載っている) ©加藤 雅基「ARMS」

27.

データセットの分析 具体的な場面(暗闇) ©加藤 雅基「ARMS」

28.

データセットの分析 具体的な場面(戦闘シーン) ©大井 昌和「女王蟻」

29.

データセットの分析 具体的な場面(内言) ©大井 昌和「女王蟻」

30.

考察 特定のジャンルや特定の場面において評価にブレが生じる ⚫ ジャンル:SF・バトル ⚫ 場面:状況把握の難しいコマ(戦闘シーン・暗闇) ⚫ セリフ:内言・身体状態を表す表現 吹き出しがない・吹き出しのしっぽがない

31.

考察&展望 アノテーション付与の効率化 ⚫ 状況把握の難しい場面では、付与者を増やす ⚫ 評価が容易な場面では、付与者を減らす アノテーションの付与難易度を明確にしていく 人手によるアノテーション付与の必要数を動的に切り替える 手法の検討

32.

まとめ セリフ・発話者対応付けデータセットの拡張 ⚫ 協力者56名により、計749,856件のアノテーション付与 ⚫ 15.8%の一致率の低下が見られた (2名→5名) データの分析・結果 ⚫ 評価人数ごとの完全一致率の推移 ⚫ 評価一致度指標における評価にブレが生じた場面の抽出 考察と展望 ⚫ 特定のジャンル・場面で評価にブレが生じていた ⚫ アノテーション付与難易度を明確にしていく