コミックのセリフと発話者対応付けデータセットの構築とその困難性

4.5K Views

September 18, 20

#manga analysis #machine learning #dataset #annotation system #Speech balloon & speaker association

スライド概要

Nakamura Laboratory (Meiji University)

@nkmr-lab

スライド一覧

明治大学総合数理学部先端メディアサイエンス学科中村聡史研究室

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

周辺視野に対するぼかしエフェクトが作業時の集中力に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 31.5K

商品選択においてフォントがユーザの選択行動に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 24.2K

手書きとフォントの文字形状の違いによる記憶効果の比較

Nakamura Laboratory (Meiji University) 20.8K

Make-up FLOW 2.0: 美容系YouTuberの化粧フローチャートの共有・取り入れ手法

化粧メイク化粧工程フローチャート美容系youtuber 取り入れ

Nakamura Laboratory (Meiji University) 17.3K

周辺視野における妨害刺激の減衰が集中度に及ぼす影響

Nakamura Laboratory (Meiji University) 17.1K

三択の選択肢の色の組み合わせが選択行動に及ぼす影響

選択ゴルディロックス効果色

Nakamura Laboratory (Meiji University) 16.2K

各ページのテキスト

研究室でアーカイブするため録画させていただきます質疑部分は録画しない予定ですが操作を忘れていたらすみませんコミックのセリフと発話者対応付けデータセットの構築とその困難性明治大学阿部和樹中村聡史 Mail: [email protected] Web: http://nkmr-lab.org

好きな漫画 • グロ系以外はほぼ全部好き – 読んだ回数が多い漫画は、マスターキートン、めぞん一刻、スラムダンク？ • 最近読んで好きだった漫画 – 葬送のフリーレン – ヘテロゲニアリンギスティコ – 波よ聞いてくれ – ミステリと言う勿れ – 国宝のお医者さん

背景 • 検索、推薦、翻訳、要約、ネタバレ防止、生成、教育、文化発信など様々な応用に向けたコミックの理解技術の重要性 • コミックの内容理解のための認識技術 – 登場人物: 顔認識、表情認識、人物推定、骨格認識、関係性推定、重要度推定など – 文字情報: セリフ認識、順序推定、吹き出し形状認識、話者推定、オノマトペ認識など – 他: コマ推定、シーン推定、一般物体認識など多種多様な認識・推定技術が必要！

関連研究: 発話者推定 • Speech balloon & speaker association for comics & manga understanding [Rigaud2015] しっぽ ©進藤ウニ「日常スープ」 • データドリブンなアプローチを用いた漫画画像中の吹き出しの話者推定 [山本 2018]

関連研究: 発話者推定 • Speech balloon & speaker association for comics & manga understanding [Rigaud2015] キャラクタの重心しっぽの先端 ©進藤ウニ「日常スープ」 • データドリブンなアプローチを用いた漫画画像中の吹き出しの話者推定 [山本 2018]

認識推定の研究開発に必要なもの • 膨大なデータセット – 機械による学習に利用するため – 認識・推定精度のフェアな数値化のため • すでにあるデータセット – Manga109 [Matsui 2017] – eBDtheque [Guerin 2015] – COMICS [Iyyer 2017]

Manga109 Dataset [Matsui 2017] • 109冊の漫画をデータセットとして公開 – アノテーションデータは、コマ、登場人物、セリフに関する情報 Frame Text Face Text セリフと発話者の対応付けはない ©赤松健「ラブひな」

我々の過去の研究 [阿部 2019] ©赤松健「ラブひな」機械による自動判定においてどんな要素を考慮する必要があるのか？どこにヒントがあるか？なぜ難しいのか？阿部和樹, 中村聡史. 漫画における台詞発話者の自動判定に向けた技術的困難性による整理とデータセット構築手法の検討, 第2回コミック工学研究会発表会, pp.7-14, 2019. https://dl.nkmr-lab.org/papers/208

https://dl.nkmr-lab.org/papers/208

セリフと発話者と情報デザイン • 同じコマに複数のキャラクタとセリフが存在している場合、ゲシュタルト心理学を考慮するとセリフと発話者を近づけたい（近接の法則）が、時間的な流れの表現も必要 ©草水敏/恵三郎「フラジャイル病理医岸京一郎の所見」

10.

吹き出しの「しっぽ」 • キャラクタが大勢いても、しっぽによってだれの発言かわかる ©草水敏/恵三郎「フラジャイル病理医岸京一郎の所見」

11.

セリフとキャラクタの位置関係 B B A A 発話者ごとに交互に配置 B A B ©緑山のぶひろ「罠ガール」 A

12.

セリフの表現とキャラクタの特性 • 人のキャラクタとAIのキャラクタでフォントが違う（類同の法則） ©かっぴー/うめ「アイとアイザワ」

13.

これまでの研究機械判定の難易度に影響する要素 Easy Hard ありなしありなし吹き出しの形キャラクタ固有同一発話者の存在コマ内コマ外 1人複数人 or 1人 1つ複数近い遠い台詞のフォントキャラクタ固有同一台詞の方向キャラクタ固有同一台詞の口調キャラクタ固有同一台詞とキャラクタの見た目の関係同期非同期発話者のヒントありなし要素吹き出しの有無吹き出しの形状吹き出しのしっぽ台詞とキャラクタコマ内のキャラクタ数の位置関係コマ内のセリフ数発話者と台詞の距離台詞の表現とキャラクタの特性

14.

名探偵コナン問題 • 難易度激ムズ ©青山剛昌「名探偵コナン」

15.

漫画のデータセット • セリフとその発話者の正解データが必要 • Manga109データセットを拡張！ – セリフの総数： 147,918件 Text Character① Character② ©赤松健「ラブひな」

16.

アノテーション付与システム • 人は自然に発話者を判断できるため素早くアノテーションが付与可能？ • 台詞とその発話者は近くにいることが多い – 近くにいるキャラクタとの結びつきを簡単な操作できるといい ©赤松健「ラブひな」

17.

どのタスクが難しいか [Fitts 1954]

18.

フィッツの法則 D W D T = a + b log 2 ( + 1) W a はデバイス操作に必要な時間 b は目標の距離や大きさが所要時間に与える影響

19.

発話者とセリフの関係 • セリフは発話者の近くに配置されることが多いため、セリフを近くの発話者にドラッグアンドドロップ操作ができれば便利！ ©赤松健「ラブひな」

20.

アノテーション付与システム ©赤松健「ラブひな」台詞をドラッグアンドドロップでキャラクタまで運ぶ → 👍 作業時間を短縮できる

21.

アノテーション付与システム • 存在しないキャラクタへの付与 ©赤松健「ラブひな」

22.

今回の成果 • データセットを構築 • データセットの基礎的な分析 – セリフと発話者の関係性と、困難性など • 推定についての分析と考察

23.

データセットを構築しました • 109冊の漫画に登場する147,918件のセリフに対して2名のアノテータが発話者となるキャラクタとの対応付けを行なった – https://nkmr.io/comic/speaker-dataset/ • ご自由にお使い下さい！

https://nkmr.io/comic/speaker-dataset/

24.

データセット構築 • 構築期間 2019.11.28-12.25 – 対象：109冊の漫画・147,918件のセリフ – アノテータ：33名 – 1冊に対するアノテータ数：2名 – データ合計：297,706件

25.

データの分析：一致度 • アノテータ2名の意見が一致していた数 – 全て 132,447件 / 147,918件（89.6%） • 不一致は10.4% – 人物 128,502件 / 147,918件（86.9%）

26.

データの分析：困難性 • • • • • ナレーションとモノローグが判別不可アナウンスなどその場に発話者が不在キャラクタが人形や他人に乗り移る 1コマに多数のキャラクタが存在吹き出しが分割されていない ©加藤雅基「ARMS」

27.

データの分析：困難性 • 途中から読んでもわからない（1巻がないものなど） – マイクロタスク化するには工夫が必要？ – https://justune.net/

https://justune.net/

28.

分析推定のための正解データ設定 • 2名の意見が一致しており、発話者がキャラクタとして存在する128,502件のデータを正解データとする – ナレーションやモノローグ、ひとでも判断が分かれた「より困難である」と考えられる計13.1% のデータは今回は対象外とする • 基礎的な分析と、自動推定における精度の評価に利用

29.

基礎的な分析 • コマ内のセリフとキャラクタの関係性 – あるコマにセリフがあるときの分析 – 注：ナレーションなどは抜かれています

30.

31.

32.

33.

34.

35.

発話者推定：手法正規化したスコアの合計で判断・・・対象のセリフ距離 0.4 0.4 0.2 同じコマ 0.5 0.5 0.0 しっぽ方向 1.0 0.0 一人称・語尾 0.5 0.0 0.0 0.5 ・・・ ©島崎譲, 鷹司「花影戦記妖魔降臨」

36.

発話者推定：設定 • 機械が予め知っている情報 – コマ・キャラクタ・セリフの座標情報 • キャラクタとセリフは中心座標を利用 – キャラクタの名前とセリフの文字列 • 発話者の推定（2パターンを用意） – すべてのキャラクタを対象（全発話者） • 121,364件のセリフが対象 – 5名/冊の主要キャラクタに限定（主要発話者） • 88,297件のセリフが対象 • 発話者の正解率で精度を評価

37.

精度おかしくない？と問い合わせ • 距離による精度が一致しないと問い合わせをいただいた（東京理科大学大学院の山口理哉さんよりメール） • 精査すると計算式が間違っていた！ – 顔との距離を計算する際、なぜか両方がX座標になってしまっていた • データを公開していたからこそ、修正いただけるありがたさ

38.

全発話者推定：結果修正版セリフ件数：121,364件手法単独の正解率組み合わせの寄与率 ①距離 74.3 % 33.9 % ②同じコマ 34.5 % 2.8 % ③しっぽ方向 13.5 % 0.7 % 4.8 % 0.3 % ④一人称・語尾組み合わせ 78.5 %

39.

主要発話者推定：結果修正版セリフ件数：88,297件手法単独の正解率組み合わせの寄与率 ①距離 81.0 % 29.5 % ②同じコマ 46.1 % 1.9 % ③しっぽ方向 14.6 % 0.5 % 6.1 % 0.4 % ④一人称・語尾組み合わせ 84.2 %

40.

主要発話者推定：結果修正版セリフ件数：88,297件手法組み合わせの寄与率単独の正解率組み合わせることで 81.0 正解率がどれだけ上昇するか？ % 29.5 % ②同じコマ 46.1 % 1.9 % ③しっぽ方向 14.6 % 0.5 % 6.1 % 0.4 % ①距離 ④一人称・語尾組み合わせ 84.2 %

41.

42.

43.

発話者推定：結果一人称・語尾による推定正解率：6.1% 寄与率：0.4% 5,408件のセリフが正解組み合わせることで新たに353件のセリフが正解一人称や語尾から「男性」っぽさ，「ジジイ」っぽさといったキャラクタの属性を抽出できていた一人称・語尾が含まれるセリフ数：7,364件（10%未満） 5,408件 / 7,364件 = 73.4%のセリフは正解

44.

発話者推定：結果一人称・語尾による推定正解率：6.1% 寄与率：0.4% 5,408件のセリフが正解組み合わせることで新たに353件のセリフが正解一人称や語尾から「男性」っぽさ，「ジジイ」っぽさといったキャラクタの属性を抽出できていた一人称・語尾が含まれるセリフ数：7,364件（10%未満）キャラクタの属性を 5,408件抽出可能な発話特徴が必要！ / 7,364件 = 73.4%のセリフは正解

45.

考察 • 2人では、10.4%のセリフに不一致が発生 – 人を増やし、多数決などを検討するとともに、どういったものは簡単でどういったものは難しいかなどを明らかにする必要あり – 名探偵コナン問題をどう解決するかの課題 • ナレーションなどを除いても、14.7%のセリフは、同じコマに発話者が不在 – 色々な手法により判定する必要性 – 作品による偏りなどを分析する必要あり

46.

発話者推定：考察 • 「距離」「同じコマ」「しっぽ方向」「一人称・語尾」の推定を組み合わせると84.2%の精度高精度ではないが手がかりを組み合わせることの有用性は見られた • 「一人称・語尾」による推定精度は6.1%，それらの単語が登場するセリフに対しては73.4%の精度で推定可能セリフの内容から得られる手がかりは有用だがより多様な手がかりが求められる

47.

考察機械判定の難易度に影響する要素 Easy Hard ありなしありなし吹き出しの形キャラクタ固有同一発話者の存在コマ内コマ外 1人複数人 or 1人 1つ複数近い遠い台詞のフォントキャラクタ固有同一台詞の方向キャラクタ固有同一台詞の口調キャラクタ固有同一台詞とキャラクタの見た目の関係同期非同期発話者のヒントありなし要素吹き出しの有無吹き出しの形状吹き出しのしっぽ台詞とキャラクタコマ内のキャラクタ数の位置関係コマ内のセリフ数発話者と台詞の距離台詞の表現とキャラクタの特性

48.

考察機械判定の難易度に影響する要素要素吹き出しの有無吹き出しの形状吹き出しのしっぽ Hard ありなしあり 14.6% なし吹き出しの形キャラクタ固有同一発話者の存在コマ内 91.5% 1人 37.1% コマ外 8.5% 複数人 or 1人 1つ複数近い 81.0% 遠い 19.0% 台詞のフォントキャラクタ固有同一台詞の方向キャラクタ固有同一台詞の口調キャラクタ固有6.1% 同一台詞とキャラクタコマ内のキャラクタ数の位置関係コマ内のセリフ数発話者と台詞の距離台詞の表現とキャラクタの特性 Easy 台詞とキャラクタの見た目の関係同期非同期発話者のヒントありなし

49.

まとめと今後の課題 • 14.8万件のセリフに対して発話者を付与するデータセットを構築 – 10.4%のセリフはひとによる評価ブレあり – コマ内に発話者がいるのは85.3% – 頻度の高い5人に限定すると距離だけで精度は 66.981.0%、組み合わせで78.684.3%の精度 • 今後の課題 – ひとによる評価ブレは大きく、どういったものでどの程度ブレるかは今後要検証 – マイクロタスク化可能なセリフなどの検証

50.

アノテーションの重要性 • Manga109を中心としたアノテーション – Manga109を修正可能な仕組み – 各自が構築しているデータセットが効果的に利用できていないため、Manga109を中心として有機的に繋がる仕組みの重要性 – アノテーション付与システムの共有化？ • Manga109以外を対象としたアノテーション – 各研究室がもつ漫画を、コンテンツを共有することなくアノテーションだけ共有可能にしたい • コンテンツ番号とページ番号、座標で紐付ける？ • 仕組みがほしいです！！