漫画におけるセリフと発話者の対応付け手法の研究

1.3K Views

February 12, 20

スライド概要

漫画はイラストと文字によってストーリーを表現したマルチメディアコンテンツであり，日本のみならず世界中で鑑賞される人気のコンテンツである．また，近年ではスマートフォンやタブレットの普及に伴い，漫画をディジタル化した電子コミックとして鑑賞される機会も多くなっている．こうした漫画のディジタル化により，漫画を機械に認識させることで様々な利用方法を提案するサービスが登場しつつある．例えば，漫画の文章を外国語に自動翻訳して閲覧可能にするサービスや，ユーザの好みに合わせた漫画の推薦などが存在する．しかし，こうしたサービスを実現するためには，漫画の画像からキャラクタやテキストといった要素を抽出し，それらの情報をもとに漫画コンテンツの内容について機械が認識する必要がある．このような，漫画画像からキャラクタやセリフのテキストといった要素を自動で抽出し，漫画を機械で処理可能な形式へと変換するといった漫画の自動解析の研究も盛んに行われている．

このような機械による漫画の自動解析の1つとして，漫画内に登場するセリフの発話者を自動で推定する手法が必要とされている．漫画のセリフにもとづいたコマの検索や漫画のシーンの理解のためには，こうしたセリフの自動的な解析が必要であり，OCR（工学文字認識）などの技術によってある程度そのセリフの内容は認識できる．しかし，そのセリフがどのキャラクタの発言であるかについての情報は読み手が判断する必要があり，機械により自動で推定する手法はまだ確立されてはいない．

また，自動推定手法の妥当性を評価するためには，漫画についての大量のデータが必要となる．漫画のデータセットはいくつか存在するものの，セリフの発話者についての情報を持ったデータセットは存在しないという問題がある．

そこで本論文では，セリフの発話者であるキャラクタを自動推定する手法の実現に向け，まずは漫画におけるセリフと発話者の正解データを収集したデータセットを構築する．その際，セリフに対応したキャラクタのアノテーション付与を効率的に行うためのアノテーション付与システムを実装した．これにより，109冊の漫画に登場する147,918件のセリフに対して発話者であるキャラクタの対応付けを行なった．また，収集したデータの信頼性を高めるため，1つのセリフに対して2名の協力者がアノテーション付与を行なった．

次に，収集したデータをもとに人手によるセリフと発話者の対応付けについて分析を行う．1つのセリフに対して2名のデータ収集協力者が存在するため，この2名の意見が一致しているかを
見ることによって収集したデータの正確さを評価するとともに，人が発話者を判断する際の難易度についても議論する．収集したデータを分析した結果，86%のセリフは意見が一致したが，その他のセリフについては意見が一致しないため，人にとっても発話者の判断が困難なセリフが存在することが明らかになった．これらを踏まえ，実際の漫画の事例をもとにセリフと発話者の推定における課題を「吹き出しの形状」「セリフとキャラクタの位置関係」「セリフの表現とキャラクタの特性」の3つの要因に整理した．

最後に，機械によってセリフの発話者を自動で推定する手法を考案し，データセットをもとに手法の精度を評価した．発話者を推定する手法として，「同じコマ内にいるキャラクタの情報」「セリフとキャラクタの距離の情報」「吹き出しのしっぽの方向の情報」「一人称と語尾の情報」の4つの情報を組み合わせる方法を提案した．推定の結果，全体のセリフに対して70%の精度で発話者を推定することができるという結果が得られた．また，発話者の対象を主要なキャラクタに絞って推定を行なったところ，最大で78%の精度で発話者を推定可能となった．これにより，発話者の手がかりとなる情報を組み合わせることで精度が向上することが明らかとなった．また，キャラクタの特徴とセリフの特徴の一致を見るなど，セリフの内容から得られる手がかりを用いることで推定の精度を向上させられることが示唆された．

Nakamura Laboratory (Meiji University)

@nkmr-lab

スライド一覧

明治大学総合数理学部先端メディアサイエンス学科中村聡史研究室

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 44.27MB)

関連スライド

周辺視野に対するぼかしエフェクトが作業時の集中力に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 10.7K

色覚特性を考慮したゲームの有利不利制御のAmong Usを用いた検証

色覚多様性者模擬フィルタ色のハンディキャップオンラインゲーム

Nakamura Laboratory (Meiji University) 9.3K

商品選択においてフォントがユーザの選択行動に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 8.7K

三択の選択肢の色の組み合わせが選択行動に及ぼす影響

選択ゴルディロックス効果色

Nakamura Laboratory (Meiji University) 7.7K

手書きとフォントの文字形状の違いによる記憶効果の比較

Nakamura Laboratory (Meiji University) 6.7K

周辺視野領域のぼかし強調による集中促進手法

Nakamura Laboratory (Meiji University) 5.6K

各ページのテキスト

漫画におけるセリフと発話者の対応付け⼿法の研究明治⼤学⼤学院先端数理科学研究科先端メディアサイエンス専攻中村研究室阿部和樹

背景︓漫画とコンピューティングコンピュータによる漫画の活⽤例ユーザの好みに合わせた推薦例）マンガほっと「コレヨモ」検索・推薦外国語への⾃動変換例）Mantra︓マンガの超⾼精度な⾃動翻訳鑑賞⽀援

背景︓漫画とコンピューティングコンピュータによる漫画の認識テキスト・キャラクタの位置漫画画像を対象とした物体認識 [⼩川 2018] 認識キャラクタの顔の同定キャラクタの相関抽出 Creating Character Connections from Manga [Murakami 2011] ストーリーや展開の推定漫画画像セリフの発話者の推定漫画上のキャラクター識別に関する⼀検討 [⽯井 2013] ・・・低レベルの理解 Comic Story Analysis Based on Genre Classification [Daiku 2011] ・・・⾼レベルの理解

背景︓漫画のセリフとキャラクタ発話者の推定による漫画の理解 Character Text Text Text Text キャラクタや絵の分析（画像処理処理） Character セリフ内容の分析（⾃然⾔語処理） ©⾚松健「ラブひな」

背景︓漫画の⾃動分析発話者の推定による漫画の理解「がんばれば必ずできる」「諦めないでやってみなよ」「な、なんだなんだ〜」成瀬川なる浦島景太郎登場キャラクタ「こいつけっこうカワイイ」登場セリフ漫画の内容を理解可能か︖

背景︓漫画の⾃動分析発話者の推定による漫画の理解成瀬川なる「がんばれば必ずできる」「諦めないでやってみなよ」「な、なんだなんだ〜」「こいつけっこうカワイイ」浦島景太郎機械による漫画の分析にはセリフの発話者の⾃動推定が必要キャラクタの属性や関係性が抽出できる

背景︓関連研究発話者の推定を⾏っている研究 • Speech balloon and speaker association for comics and manga understanding [Rigaud 2015] • データドリブンなアプローチを⽤いた漫画画像中の吹き出しの話者推定 [⼭本 2018]

背景︓関連研究発話者の推定を⾏っている研究 • Speech balloon and speaker association for comics and manga understanding [Rigaud 2015] 吹き出しのしっぽに⼀番近いキャラクタを発話者として推定 • データドリブンなアプローチを⽤いた漫画画像中の吹き出しの話者推定 [⼭本 2018] キャラクタの中⼼しっぽの先端 ©進藤ウニ「⽇常スープ」

背景︓関連研究発話者の推定を⾏っている研究 • Speech balloon and speaker association for comics and manga understanding [Rigaud 2015] • データドリブンなアプローチを⽤いた漫画画像中の吹き出しの話者推定 [⼭本 2018] キャラクタとセリフの距離の他にキャラクタの表⽰サイズ・しっぽの⽅向等の情報を加えて推定

10.

背景︓既存⼿法の問題点既存の⽅法では判定できない例 ©⾚松健「ラブひな」 ©あきづき空太「⾚髪の⽩雪姫」 ©平雅⺒「⿊井⼾眼科」セリフ内容の特徴など吹き出しの遠いキャラクタが吹き出しがないしっぽがないより多くの⼿がかりが必要発話者

11.

背景︓漫画のデータセット • ⾃動推定の精度を求めるためには漫画のデータが必須 • セリフと発話者を⼈⼿で対応づけた正解データを⽤意する必要がある Character Text Text Text Text Character ©⾚松健「ラブひな」

12.

⽬的漫画におけるセリフと発話者を対応付けた⼤規模なデータセットの構築と⾃動推定 • ⼈⼿によってセリフと発話者を対応付けたデータセットを構築 • セリフの発話者を⾃動で推定する⼿法の提案と精度評価

13.

データセット構築︓概要 • Manga109 [Matsui 2017] を使⽤ - 109冊の漫画データセット - テキストやキャラクタの位置等の情報を含む Frame Text Character Text • 147,918件のセリフに対して発話者の情報を収集する - 収集⽤のWebページを実装 http://www.manga109.org/index.html ©⾚松健「ラブひな」

http://www.manga109.org/en/index.html

14.

データセット構築︓概要めっちゃ多い︕︕ 1冊につき1,300個以上のセリフ Frame Text Character Text • 147,918件 http://www.manga109.org/index.html ©⾚松健「ラブひな」

http://www.manga109.org/en/index.html

15.

データセット構築︓アノテーション付与システム台詞ごとに発話者を選択するタスク → !めちゃくちゃしんどい

16.

データセット構築︓アノテーション付与システムセリフと発話者のキャラクタは画像上の位置が近いことが多い

17.

データセット構築︓アノテーション付与システムセリフをドラッグアンドドロップでキャラクタまで運ぶ → ! 作業時間を短縮できる

18.

データセット構築︓データ収集収集結果（収集期間 2019.11.28〜2019.12.25） • 対象︓109冊の漫画・147,918件のセリフ • 協⼒者︓33名 • 1冊に対する協⼒者数︓2名 • データ合計︓297,706件データ配布⽤Webページ https://nkmr.io/comic/speaker-dataset/

https://nkmr.io/comic/speaker-dataset/

19.

データセット構築︓収集したデータの分析協⼒者2名の意⾒が⼀致してた数 128,502件 / 147,918件（86.9%） 1ページの平均セリフ数 ≒ 14件平均すると1ページに1件以上は発話者の不⼀致があった

20.

データセット構築︓収集したデータの分析⼈間にとっても判断が難しい状況が存在する判断が難しかった例 ©愛⽥真⼣美「魔夜の⾚い靴」どちらが発話者かわからない ©加藤雅基「ARMS」近くに発話者がいない

21.

データセット構築︓正解データ • 2名の意⾒が⼀致していた128,502件のデータを正解データとする • ⾃動推定における精度の評価に利⽤

22.

23.

24.

25.

26.

27.

発話者⾃動推定︓⼀⼈称・語尾「どうかわたしと⼀緒に江⼾城へ︕︕」「おれたちの⼀族には…」「おれに能⼒がないのは本当なんだよ」「わたし」の候補「おれ」の候補「わたしたちの国では…」「そのとおりですわ」距離・同じコマ・しっぽ⽅向による推定語尾「ですわ」の候補事前に推定した結果を新たな⼿がかりにする

28.

発話者⾃動推定︓⼿法正規化したスコアの合計で判断・・・対象のセリフ距離 0.4 0.4 0.2 同じコマ 0.5 0.5 0.0 しっぽ⽅向 1.0 0.0 0.0 ⼀⼈称・語尾 0.5 0.0 0.5 ・・・

29.

発話者⾃動推定︓設定 • 機械が予め知っている情報 - コマ・キャラクタ・セリフの位置 - キャラクタの名前 - セリフの⽂字列 • 1冊につき5名の主要キャラクタに限定 - 88,297件のセリフが対象 • 発話者であるキャラクタの正解率で精度を評価

30.

発話者⾃動推定︓結果セリフ件数︓88,297件単独の正解率組み合わせの寄与率 ①距離 66.9% 24.0% ②同じコマ 46.1% 6.7% ③しっぽ⽅向 14.6% 1.8% ④⼀⼈称・語尾 6.0% 0.6% ⼿法組み合わせ 78.6%

31.

発話者⾃動推定︓結果セリフ件数︓88,297件⼿法 ①距離単独の正解率組み合わせることで 66.9% 正解率がどれだけ上昇するか︖ 組み合わせの寄与率 24.0% ②同じコマ 46.1% 6.7% ③しっぽ⽅向 14.6% 1.8% ④⼀⼈称・語尾 6.0% 0.6% 組み合わせ 78.6%

32.

33.

発話者⾃動推定︓結果⼀⼈称・語尾による推定正解率︓6.0% 寄与率︓0.6% 5,291件のセリフが正解組み合わせることで新たに530件のセリフが正解 ©南澤久佳「魔法使い養成専⾨マジックスター学院☆☆☆」⼀⼈称による推定が無いと左の⼥性で推定されていた

34.

35.

発話者⾃動推定︓結果⼀⼈称・語尾による推定正解率︓6.0% 寄与率︓0.6% 5,291件のセリフが正解組み合わせることで新たに530件のセリフが正解⼀⼈称や語尾から「男性」っぽさ，「おじいちゃん」っぽさといったキャラクタの特徴を抽出できていた⼀⼈称・語尾が含まれるセリフ数︓7,364件（10%未満）有⽤だが出現頻度が低い⼿がかりだった 5,291件 / 7,364件 = 71.8%のセリフは正解

36.

発話者⾃動推定︓考察 • 「距離」「同じコマ」「しっぽ⽅向」「⼀⼈称・語尾」の推定を組み合わせると78.6%の精度⾼精度ではないが⼿がかりを組み合わせることの有⽤性は⾒られた • 「⼀⼈称・語尾」による推定精度は6.0%，それらの単語が登場するセリフに対しては71.8%の精度で推定可能セリフの内容から得られる⼿がかりは有⽤だがより多様な⼿がかりが求められる

37.

38.

39.

まとめ⽬的セリフと発話者を対応付けたデータセットの構築と機械による⾃動推定 109冊に登場する14,718件のセリフに対してデータセット 2名以上が発話者アノテーションを付与⼈にとっても発話者の判断が難しい事例が存在⼿法距離，同じコマ，しっぽ⽅向，⼀⼈称・語尾の⼿がかりを組み合わせて推定結果セリフの発話者を78.6%の精度で推定可能セリフの内容を⼿がかりにすることの有⽤性が⽰された