235 Views
March 13, 19
スライド概要
水野颯, 田島一樹, 牧良樹, 中村聡史: 放送コンテンツに同期したツイートを用いたネタバレシーン推定手法の検討, 情報処理学会 究報告グループウェアとネットワークサービス(GN), 2018-GN-105(11),1-8 (2018-05-03) , 2188-8744. (2018/05/11).
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
放送コンテンツに同期したツイート によるネタバレシーン推定手法の検討
ネタバレ 皆さんはネタバレされた経験はあり ませんか?
犯人はヤス
ネタバレ事例
https://twitter.com/#!/drinami/status/68489343391645697
研究中に・・・
検索結果
Twitter Mute Button • 東海岸と西海岸の時差によるネタバレ問題 [Golbeck 2012]
放送時間差によるネタバレ • 放送時間差によってアニメのネタバレをされる 可能性のある視聴者は全体の70% [田島 2015] – キー局などの都合により,同じタイミングで放送され ないことも多い
Wikipedia: 内容に関する免責事項
多くの悲しいネタバラレ過去 • スーパーボウルの試合を録画して楽しみにして いたら,mixiで結果を知ってしまう • サッカーのU-21代表の試合を楽しみにしていた らニュース速報で知ってしまう • ツール・ド・フランスを楽しみにしていたのに twitterでその結果を知ってしまう • 某映画の結末を飲み会の場で知ってしまう • 某小説の犯人を小説に書き込まれたいたずら 書きで知ってしまう • 某ゲームの犯人を知ってしまう
ネタバレ問題 • リアルタイムで楽しむことができないコンテンツ に対して,その結果などを知ることによりがっか りしてしまうという問題 • コンテンツに対する「ハラハラ」「ドキドキ」「ワク ワク」といった感情を失わせてしまうもの
ネタバレは問題ない? • 小説のネタバレ [Leavitt 2011] – ネタバレされても最終的な面白さは変わらない! – ややあらすじ的なものであり,また名作 – さらに重要なのは最初に提示されており,名作は最 後まで読めばやっぱり面白いという話でしか… • 短編小説のネタバレ [Levine 2016] – 読む前に提示されると面白さが減少するが,読んで いる最中にネタバレされても楽しみは変わらない – 1000~4000単語のかなり短い小説だったのが…
ネタバレは問題ない? • 映画のネタバレ [Tsang 2009] – ネタバレは映画の消費行動を消極的にする • サッカーのネタバレ [白鳥 2018] – 面白い試合であれば面白さに差はない.ただ,一 喜一憂度合いが下がってしまう • コミックのネタバレ [牧 2017] – 最終的な面白さはあまり変わらないが,ネタバレさ れるとドロップアウト率が高まる(10% → 37%) – 2/3まで読んだときにネタバレされると問題が生じる やはりネタバレは問題あり!
遮断すればよいのでは? • 他者とコミュニケーションをとらないことを許容 できますか? – SNS上でのコミュニケーション – 他者とのリアルなコミュニケーション – 他人同士の会話 • うっかりアクセス – 別の用事でついつい見てしまう – 検索結果に登場する – など
ネタバレ防止手法 • 機械的なネタバレ防止 – マッチングによる遮断 [中村 2005] – Twitterクライアントとして実装 [中村 2014] – Twitter Mute Button [Golbeck 2012] – 固有名詞・時制に着目した判定 [Jeon 2013] – SVM+勝敗モデルによる判定 [白鳥 2017] • 認知的なネタバレ防止 – システムがたまに嘘をつくことを知ることにより認知 的にネタバレを防止してしまう [中村 2013]
ネタバレツイートの判定の難しさ • ハッシュタグが付与されていない投稿が多い – タグが付与されている投稿ばかりであれば,その投 稿を無視するだけでよい • 唐突に現れる「やったー」「裏切るなんて」「XXが 死ぬなんて」 • 口語的表現で,あまりに短い文章であるため判 定が難しい • 投稿者のアイコン+投稿内容+前提知識でわ かってしまう おわった…
本研究の狙い • 直接ネタバレ判定を行うのではなく,一度ネタ バレシーンを推定し,そこからネタバレツイート の判定を行う ネタバレシーン ツイート量 時間
将来実現するシステム • ツイートはコミュニケーションを遮断しないレベ ルで多少遅延を発生させ提示(20~30秒程度) • ユーザの興味対象のハッシュタグをもとにシス テムがリアルタイムにネタバレシーンを判断 • ネタバレシーンを検知した場合に,ネタバレに 関連するツイートを高精度に検知し,隠す
研究目的 • 放送コンテンツ(ここではアニメ)のネタバレシー ンを機械的に推定する – 実況ツイートからネタバレシーンならではの特徴量 を明らかにする – ネタバレシーン判定に適した特徴量の組み合わせ を検討する
ネタバレとコンテンツの単位 • 漫画のネタバレ – 全体を通して – 1巻,1話,1ページ,1コマ? • アニメのネタバレ – 全体を通して – 1話 – 残り5分
本研究でのネタバレの定義 • コンテンツを N 話まで楽しんだユーザに対して ,N+1 話内のコンテンツに関する情報を提示し た際に,その先のコンテンツへの興味を失わせ てしまうもの N-1 N N+1 N+2
事前調査 ネタバレシーンにおける特徴量を明らかにする 著者らの協議により,複数のアニメコンテンツ(最終話近くまたは, 驚きの展開で話題となった作品)の話を選定 作品名 ツイート数 魔法少女まどか☆マギカ 第3話 3,465 戦記絶唱シンフォギア 第13話 10,053 ガールズ&パンツァー 第11話 18,344 ガールズ&パンツァー 第12話 18,824 SHIROBAKO 第23話 20,114 がっこうぐらし! 第1話 9,353 けものフレンズ 第12話 54,318
事前調査 • ネタバレシーンにおけるTwitter上でのユーザの 振る舞いの分析 • 予想 – (単純に)ツイート量が増える – 感想にまつわるツイートの量(形容詞)が増える • 驚き,悲しみなど – 感情が表出されたツイートの量が増える • 「うわああああ」「ぎゃあああ」など – 動きにまつわるツイートの量(動詞)が増える? ほか
特徴量の検討 • 各コンテンツについて,ネタバレシーンを人手で 設定 – ネタバレシーンは,1つ前の話数まで見た状態を前 提とする • 実況ツイートを形態素解析し,各種の統計量を グラフ化することにより,ネタバレネタバレシー ンの検出に有用な特徴量を検討
分析対象 • ツイート数 – 単純なツイートの数 • 感情的ツイート割合 – 例「うわーんしんだああああああああああ」 – 「あ~お(小文字,カタカナ含む)」「っ」「w」「w」などの文字,「!」「 !」「?」「?」「・」「~」「―」「-」「ー」「-」の記号が3度以上連続してい る文字列を含むツイートの数 • 固有名詞ツイート数 – 例「サザエさんがおさかなを盗んだ犯人だったなん て……」 – 形態素解析辞書にない名詞が含まれるツイートの 割合
特徴量の評価 • 一定時間(10秒)ごとのツイートから特徴量のツ イート数の推移を可視化 • 手動判定したネタバレシーンの時間帯と照らし 合わせネタバレシーンに対する有効性を大まか に見る • 以下では,特徴的だった – ツイート数,感情的ツイート割合,固有名詞ツイート 割合について示す – 形容詞,動詞などは×
■: ネタバレシーン┃: ツイート数 /: 感情的ツイート割合 /: 固有名詞ツイート割合 魔法少女まどか☆マギカ 第3話 がっこうぐらし! 第1話
■: ネタバレシーン┃: ツイート数 /: 感情的ツイート割合 /: 固有名詞ツイート割合 SHIROBAKO ガールズ&パンツァー 第11話
■: ネタバレシーン┃: ツイート数 /: 感情的ツイート割合 /: 固有名詞ツイート割合 ガールズ&パンツァー 第12話(最終話)
■: ネタバレシーン┃: ツイート数 /: 感情的ツイート割合 /: 固有名詞ツイート割合 けものフレンズ 第12話(最終話) 戦姫絶唱シンフォギア 第13話(最終話)
事前調査の結果 • 各特徴量について,ネタバレシーンにおいて大 きめの値をとる • 単体ではネタバレシーン判定は困難 – 番組の放送が始まったタイミング,終わるタイミング にコメントが増えたり,ネタバレではない面白シーン が検出されてしまったりする • 最終話はほぼ全編にわたってネタバレが存在 している
手法 スコアが閾値を 上回った時間帯を ネタバレシーンと判 定 スコア 時間帯ごとの特徴量を複 合した手法から ネタバレ度スコア算出 1 2 3 4 5 6 7 8 9 10 11 12 13 14 時間(秒)
ネタバレ度スコアの算出手法 3種類の手法を検討 • ツイート数による手法(T手法) – スコア=(ツイート数) • ツイート数と感情的ツイート数による手法(TS手法) – スコア=(ツイート数) x (感情的ツイート数) • 感情的ツイート数と固有名詞の割合による手法(SP手法) – スコア=(感情的ツイート数) x (固有名詞の割合)
スコアの閾値 2種類の閾値を検討 • 2 x (スコアの平均) – 平均の2倍と表記 • 2 x (スコアの標準偏差) + (スコアの平均) – 2SDと表記
実験 • 3手法によるネタバレシーン判定結果に対して 手動によるネタバレシーン判定結果を照らし合 わせ精度を算出 3手法 x 2閾値 • • • T手法 TS手法 SP手法 • • = 2SD 平均の2倍 6通り
実験の評価尺度 • ネタバレと非ネタバレの評価尺度として 適合率(Precision),再現率(Recall),F値
実験結果 • SP手法で,平均の2倍で閾値を切るものが最も 精度が高くなる
精度が比較的高かった作品 がっこうぐらし! 戦記絶唱シンフォギア
精度が比較的低かった作品 SHIROBAKO ガールズ&パンツァー12話
考察 • ネタバレシーンが多数ある対象の精度が低い – 最終話はネタバレが多数存在していることが多いた め,全体をネタバレとして扱わざるを得ない? • 検出されなかったネタバレシーンもある程度の スコア以上であった – 時系列分析などで高精度に判定できる可能性? – トピックを考慮する必要がある? • より高精度なネタバレシーン推定に向けて – 音声や映像の分析を行う • 特徴的なSEが挿入されたり,シーン切り替えなどがあると 考えられる
考察 • 新たなる特徴について検討の必要性 – お約束的なツイートは完全一致で省ける? – 感情が表出されているかどうかのチェック – 文章の長さ – 時間当たりの書き込む人のユニーク数 – トピックの急な変化 – センチメントの急な変化 • ポジティブ→ネガティブ • ネガティブ→ポジティブ など
ネタバレ問題の難しさ • どこまでがネタバレなのかはコンテキスト依存 – 試合の結末 – 歴史に関するドラマ – 表紙によるネタバレ – 2時間の映画で残り10分であることを知る – まだ26話中の5話 – 続巻があるということ
ネタバレ問題の難しさ • ネタバレ問題を感じない人たち – 結末を知ってから安心して小説を読みたい – 長編の作品を読まずに人と話をするため流れと結 末だけ知りたい – 日本が勝った試合だけを見たい – ゲームはプレイせず実況で見るだけでいい
まとめ • アニメにおけるネタバレシーン推定のため実況 ツイートを分析 • 7作品に関して3手法によるスコア算出・2閾値 による判定を実行比較 • 感情的ツイート数と固有名詞の登場割合を用 いた手法で平均の2倍を閾値にしたとき最も精 度が高くなりF値0.512
今後の課題 • 閾値・スコアの算出法の改善で高精度化できる 可能性 • 特徴に関する再検討 • ネタバレシーン判定をもとにしたネタバレツイー ト判定手法の検討