ソーシャルコメントからの音楽動画印象推定に関する考察

354 Views

November 04, 15

#Music Video Comments #Impression Estimation #SVM #Cross Validation #Social Media Analytics

スライド概要

SIGGN96 で発表した「ソーシャルコメントからの音楽動画印象推定に関する考察」という研究の発表スライドです．

Nakamura Laboratory (Meiji University)

@nkmr-lab

スライド一覧

明治大学総合数理学部先端メディアサイエンス学科中村聡史研究室

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

周辺視野に対するぼかしエフェクトが作業時の集中力に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 31.7K

商品選択においてフォントがユーザの選択行動に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 24.3K

手書きとフォントの文字形状の違いによる記憶効果の比較

Nakamura Laboratory (Meiji University) 20.9K

Make-up FLOW 2.0: 美容系YouTuberの化粧フローチャートの共有・取り入れ手法

化粧メイク化粧工程フローチャート美容系youtuber 取り入れ

Nakamura Laboratory (Meiji University) 17.3K

ComiQA: A Comic Quiz Sharing Service that Helps Users to Recollect the Content of Previous Volumes

comic manga recollection qa service

Nakamura Laboratory (Meiji University) 17.4K

周辺視野における妨害刺激の減衰が集中度に及ぼす影響

Nakamura Laboratory (Meiji University) 17.1K

各ページのテキスト

ソーシャルコメントからの音楽動画印象推定に関する考察土屋駿貴（明治大学総合数理学部B3，JST CREST）中村聡史（明治大学総合数理学部，JST CREST）山本岳洋（京都大学，JST CREST）

C1（堂々とした）コメントから印象推定可能？ C2（元気が出る） C3（切ない） • 音楽動画に付与されたコメントからその C4（激しい）動画の印象をSVMで推定する C5（滑稽）かわえええ８８８８８ C6（かわいい）いやされるすごい！！！ Valence（快,不快）かわいい Arousal（覚醒,鎮静）かわいい形容詞 C1 C2 C3 C4 C5 C6 V A 平 •音楽動画コメントによる推定精度の高さ 0.733 0.869 0.710 0.750 0.667 0.838 0.650 0.842 0.757 • 音楽動画映像のみ音楽のみ音楽のみ 0.667 ＞ 0.635 0.595 0.667＞ 0.581 0.775 0.706 0.733 0.670 • かわいいその他＞堂々，滑稽映像のみ 0.714 ＞ 0.736 0.733 0.759 0.536 0.829 0.603 0.850 0.720 平均 0.705 0.747 0.679 0.725 0.595 0.814 0.653 0.809 0.716

背景（音楽動画数の増加） • 動画共有サイトで音楽動画数が増え続けている • YouTube • ニコニコ動画

背景（検索方法） • 音楽動画の検索 • キーワード検索 • タイトル，曲名「千本桜」「弱虫モンブラン」 • 使用ソフト • 作曲者名の検索「VOCALOID」「初音ミク」「自然の敵P」「supercell」 • タグ検索キーワード，タグは思いつきづらい

背景（印象検索） • 音楽動画からユーザが受ける主観的な印象に基づく検索 • 「元気の出る音楽動画」 • 「かわいい音楽動画」

印象検索のアプローチ • 印象を人手で与える • 人手ですべての動画に与えるのは困難 • タイトル・タグから推定する • 印象タグニコニコ動画では5%[山本2009]， Last.fmでは14%[Hu2007] • 音響特徴量から推定する • 歌詞と音響信号から特徴量を抽出し楽曲の印象推定 [西川2011] • 映像特徴量から推定する • コメントから推定する

関連研究 • 視聴者のソーシャルコメントに基づき，動画の検索および推薦する[佃2011] • 楽曲全体に対する評価となっている • コメントが音楽動画，音楽，映像のどのメディアに対するものなのか考慮されていない

ソーシャルコメント • 動画を視聴したユーザが感じた印象をリアルタイムに文字にして表現している

ソーシャルコメント • コメントはどのメディアタイプに対するものであるのかあきらかではないコメントメディアタイプかっこいい音楽＋映像すごい！！音楽かわいい映像

10.

印象の差異 • 音楽動画からユーザが受ける印象は部分と全体で異なる[大野2015] • 本研究ではサビ部分に着目 • 全体の印象は、部分ごとの印象から推定する必要がある

11.

目的コメントのみからの印象推定はどのメディアタイプでどういった印象のときに可能かを検討する

12.

印象評価データセット[大野2015] • 評価対象：ニコニコ動画に投稿された動画のうち，「VOCALOID」タグが付与されたもの • 500件の音楽動画のサビ部分の30秒(ReflaiD[後藤 2003]を使用) • 音楽動画のサビ部分を3タイプにメディア分離したデータに対し8つの印象軸に関して評価 1. 「サビ音楽動画」 2. 「サビ音楽のみ」 3. 「サビ映像のみ」 • 3人の評価者によって各メディア・印象タイプを評価

13.

印象軸[山本13] C1（堂々とした） C2（元気が出る） C3（切ない） C4（激しい） C5（滑稽） MIREX C6（かわいい） Valence（快,不快） Arousal（覚醒,鎮静） Russel[Russel1980]

14.

印象評価値 • 3人分の印象評価値を平均をそれぞれのメディアタイプ，印象タイプの評価値とする C1 C2 -2～2 1～5 C3 C4 C5 C6 -2～2 V A 評価者A -2 1 -1 2 4 1 5 2 -2 1 5 2 2 -2 評価者B 3 0 4 1 5 2 -1 2 3 0 5 2 0 -1 評価者C -2 1 5 2 3 0 -2 1 3 0 4 1 1 -2 評価値 -1.3 0.7 1 -0.3 -0.7 1.7 1 -1.7

15.

印象評価値 -2～2 C1 C2 C3 -2～2 C4 C5 C6 V A 音楽動画 -1.3 -2 -0.3 0 1.7 -2 -0.7 -0.7 音楽のみ -1.7 -2 0 -1.7 -2 0.3 -1.7 映像のみ 2 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7

16.

コメントの収集と抽出 • ニコニコ動画APIを用いて，印象評価データセットに該当する音楽動画に対するすべてのコメント（860,455個）を収集 • 音楽動画の印象評価値が付いているサビ区間内に投稿されたコメント（132,036個）を抽出コメント数の変化 Aメロ Bメロサビ Cメロサビ

17.

音楽動画に対する単語ベクトルの生成 • MeCabを用いて形態素解析することで単語に分割し、出現頻度を数え、単語ベクトルとする「ミク / かわいい」「初見」「ミク / 良い」「ミクかわいい」「初見」「ミク良い」 all手法ミクかわいい初見良い 2 1 1 1 かわいい良い 1 1 動画A adj手法動画A

18.

評価実験 • (3メディアタイプ)×(8印象タイプ) の24パターンについて，評価値をもとに動画集合を構築 -1以下低評価群（負例）動画集合 1以上高評価群（正例）

19.

評価実験 • SVMを用いて交差検定を行い，正例の適合率を計算 • 得られた動画集合を5分割し，4つを訓練データ，1つをテストデータとして交差検定を実施（5-foldクロスバリデーション） • 求める適合率はテストデータ内で正例と判定されたものに正例が含まれる割合正例（正解）負例（正解）正例(テストデータ) ○ × 負例(テストデータ) × ○

20.

all手法の適合率 C1 C2 C3 C4 C5 C6 V A 音楽動画 0.645 0.769 0.560 0.568 0.553 0.734 0.794 0.837 音楽のみ 0.790 0.741 0.283 0.600 0.425 0.569 0.821 0.886 映像のみ 0.263 0.471 0.669 0.360 0.594 0.667 0.529 0.713

21.

データ数に対する基礎検討高評価群 C1 C3 C4 C5 音楽動画 76 105 87 54 83 104 101 150 音楽のみ 133 127 46 69 49 73 124 178 映像のみ 21 50 142 49 81 78 57 111 低評価群 C1 C2 C5 C6 V A 音楽動画 105 169 191 209 178 215 62 94 音楽のみ 65 43 映像のみ 252 272 165 247 207 234 96 155 C2 C3 C4 C6 V 92 232 195 180 209 61 A

22.

データ数に対する基礎検討 • データ数に偏りがあるため，不均衡データ問題が起こっている可能性がある • 多くのデータが負例として判定されている負例正例

23.

データ数に対する基礎検討 • 正例，負例の動画数を同一にするためアンダーサンプリングを行った高評価群 C1 C3 C4 C5 音楽動画 76 105 87 54 83 104 101 62 150 94 音楽のみ 133 65 127 92 46 69 49 73 124 61 178 43 映像のみ 21 50 142 49 81 78 C2 C6 V A 57 111

24.

手法の比較 all手法音楽動画音楽のみ映像のみ平均 adj手法音楽動画音楽のみ映像のみ平均 C1 C2 C3 C4 C5 C6 V A 平 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C1 C2 C3 C4 C5 C6 V A 平 0.733 0.869 0.710 0.750 0.667 0.838 0.650 0.842 0.757 0.667 0.635 0.595 0.667 0.581 0.775 0.706 0.733 0.670 0.714 0.736 0.733 0.759 0.536 0.829 0.603 0.850 0.720 0.705 0.747 0.679 0.725 0.595 0.814 0.653 0.809 0.716

25.

結果 • メディアタイプごとの適合率の平均は，音楽動画が高い • C6，Arousalに関してはadj手法のほうが特に適合率が高くなる • C3，C5，Valenceに関してはall手法のほうが適合率が高くなる

26.

考察 • コメントがどのメディアに対してのものであるかは印象によって異なる • C2（元気が出る）C5（滑稽）は音楽動画 • C3（切ない）は映像 • C6，Arousalはadj手法の方が適合率が高い • 形容詞で印象を表現することが多い • C6（かわいい）➡ 「かわいい」 • Arousal ➡ 「かっこいい」

27.

考察 • C6（かわいい）に対してコメントからの印象推定は非常に有効である

28.

考察 • C1（堂々）C3（切ない）C5（滑稽）では精度が低い • これらの印象を直接表すような単語が使われる機会が少ない • 今回用いなかった別の品詞を利用しベクトルを生成することで結果の検証

29.

まとめ • ニコニコ動画のコメントから音楽動画の印象推定を行い，その精度について分析を実施 • 各メディア間においては，音楽動画の推定精度が高い • 各印象ごとに推定精度の差がある • C6（かわいい）に関しては印象推定が有効である可能性がある [今後の展開] • 単語ベクトルの取り方を変える • より大規模なデータセットを用いる • コメント数の変化による結果の違い