ソーシャルコメントからの音楽動画印象推定に関する考察

139 Views

November 04, 15

スライド概要

SIGGN96 で発表した「ソーシャルコメントからの音楽動画印象推定に関する考察」という研究の発表スライドです.

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

ソーシャルコメントからの 音楽動画印象推定に関する 考察 土屋 駿貴 (明治大学 総合数理学部B3,JST CREST) 中村 聡史(明治大学 総合数理学部,JST CREST) 山本 岳洋(京都大学,JST CREST)

2.

C1(堂々とした) コメントから印象推定可能? C2(元気が出る) C3(切ない) • 音楽動画に付与されたコメントからその C4(激しい) 動画の印象をSVMで推定する C5(滑稽) かわえええ 88888 C6(かわいい) いやされる すごい!!! Valence(快,不快) かわいい Arousal(覚醒,鎮静) かわいい 形容詞 C1 C2 C3 C4 C5 C6 V A 平 •音楽動画 コメントによる推定精度の高さ 0.733 0.869 0.710 0.750 0.667 0.838 0.650 0.842 0.757 • 音楽動画 映像のみ 音楽のみ 音楽のみ 0.667 > 0.635 0.595 0.667> 0.581 0.775 0.706 0.733 0.670 • かわいい その他 > 堂々,滑稽 映像のみ 0.714 > 0.736 0.733 0.759 0.536 0.829 0.603 0.850 0.720 平均 0.705 0.747 0.679 0.725 0.595 0.814 0.653 0.809 0.716

3.

背景(音楽動画数の増加) • 動画共有サイトで音楽動画数が増え続けている • YouTube • ニコニコ動画

4.

背景(検索方法) • 音楽動画の検索 • キーワード検索 • タイトル,曲名 「千本桜」「弱虫モンブラン」 • 使用ソフト • 作曲者名の検索 「VOCALOID」「初音ミク」 「自然の敵P」「supercell」 • タグ検索 キーワード,タグは思いつきづらい

5.

背景(印象検索) • 音楽動画からユーザが受ける主観的な印 象に基づく検索 • 「元気の出る音楽動画」 • 「かわいい音楽動画」

6.

印象検索のアプローチ • 印象を人手で与える • 人手ですべての動画に与えるのは困難 • タイトル・タグから推定する • 印象タグニコニコ動画では5%[山本2009], Last.fmでは14%[Hu2007] • 音響特徴量から推定する • 歌詞と音響信号から特徴量を抽出し楽曲の印 象推定 [西川2011] • 映像特徴量から推定する • コメントから推定する

7.

関連研究 • 視聴者のソーシャルコメントに基づき,動 画の検索および推薦する[佃2011] • 楽曲全体に対する評価となっている • コメントが音楽動画,音楽,映像のどのメ ディアに対するものなのか考慮されていない

8.

ソーシャルコメント • 動画を視聴したユーザが感じた印象をリアルタイ ムに文字にして表現している

9.

ソーシャルコメント • コメントはどのメディアタイプに対す るものであるのかあきらかではない コメント メディアタイプ かっこいい 音楽+映像 すごい!! 音楽 かわいい 映像

10.

印象の差異 • 音楽動画からユーザが受ける印象は部分と 全体で異なる[大野2015] • 本研究ではサビ部分に着目 • 全体の印象は、部分ごとの印象から推定する必 要がある

11.

目的 コメントのみからの印象推定はどの メディアタイプでどういった印象のとき に可能かを検討する

12.

印象評価データセット[大野2015] • 評価対象:ニコニコ動画に投稿された動画のう ち,「VOCALOID」タグが付与されたもの • 500件の音楽動画のサビ部分の30秒(ReflaiD[後藤 2003]を使用) • 音楽動画のサビ部分を3タイプにメディア分離 したデータに対し8つの印象軸に関して評価 1. 「サビ音楽動画」 2. 「サビ音楽のみ」 3. 「サビ映像のみ」 • 3人の評価者によって各メディア・印象タイプ を評価

13.

印象軸[山本13] C1(堂々とした) C2(元気が出る) C3(切ない) C4(激しい) C5(滑稽) MIREX C6(かわいい) Valence(快,不快) Arousal(覚醒,鎮静) Russel[Russel1980]

14.

印象評価値 • 3人分の印象評価値を平均をそれぞれのメ ディアタイプ,印象タイプの評価値とする C1 C2 -2~2 1~5 C3 C4 C5 C6 -2~2 V A 評価者A -2 1 -1 2 4 1 5 2 -2 1 5 2 2 -2 評価者B 3 0 4 1 5 2 -1 2 3 0 5 2 0 -1 評価者C -2 1 5 2 3 0 -2 1 3 0 4 1 1 -2 評価値 -1.3 0.7 1 -0.3 -0.7 1.7 1 -1.7

15.

印象評価値 -2~2 C1 C2 C3 -2~2 C4 C5 C6 V A 音楽動画 -1.3 -2 -0.3 0 1.7 -2 -0.7 -0.7 音楽のみ -1.7 -2 0 -1.7 -2 0.3 -1.7 映像のみ 2 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7

16.

コメントの収集と抽出 • ニコニコ動画APIを用いて,印象評価データセッ トに該当する音楽動画に対するすべてのコメン ト(860,455個)を収集 • 音楽動画の印象評価値が付いているサビ区間内 に投稿されたコメント(132,036個)を抽出 コメント数の変化 Aメロ Bメロ サビ Cメロ サビ

17.

音楽動画に対する単語ベクトルの生成 • MeCabを用いて形態素解析することで単 語に分割し、出現頻度を数え、単語ベクト ルとする 「ミク / かわいい」「初見」「ミク / 良い」 「ミクかわいい」「初見」「ミク良い」 all手法 ミク かわいい 初見 良い 2 1 1 1 かわいい 良い 1 1 動画A adj手法 動画A

18.

評価実験 • (3メディアタイプ)×(8印象タイプ) の24パターンについて,評価値をもとに動 画集合を構築 -1以下 低評価群 (負例) 動画集合 1以上 高評価群 (正例)

19.

評価実験 • SVMを用いて交差検定を行い,正例の適合 率を計算 • 得られた動画集合を5分割し,4つを訓練デー タ,1つをテストデータとして交差検定を実施 (5-foldクロスバリデーション) • 求める適合率はテストデータ内で正例と判 定されたものに正例が含まれる割合 正例(正解) 負例(正解) 正例(テストデータ) ○ × 負例(テストデータ) × ○

20.

all手法の適合率 C1 C2 C3 C4 C5 C6 V A 音楽動画 0.645 0.769 0.560 0.568 0.553 0.734 0.794 0.837 音楽のみ 0.790 0.741 0.283 0.600 0.425 0.569 0.821 0.886 映像のみ 0.263 0.471 0.669 0.360 0.594 0.667 0.529 0.713

21.

データ数に対する基礎検討 高評価群 C1 C3 C4 C5 音楽動画 76 105 87 54 83 104 101 150 音楽のみ 133 127 46 69 49 73 124 178 映像のみ 21 50 142 49 81 78 57 111 低評価群 C1 C2 C5 C6 V A 音楽動画 105 169 191 209 178 215 62 94 音楽のみ 65 43 映像のみ 252 272 165 247 207 234 96 155 C2 C3 C4 C6 V 92 232 195 180 209 61 A

22.

データ数に対する基礎検討 • データ数に偏りがあるため,不均衡データ問題 が起こっている可能性がある • 多くのデータが負例として判定されている 負例 正例

23.

データ数に対する基礎検討 • 正例,負例の動画数を同一にするためアン ダーサンプリングを行った 高評価群 C1 C3 C4 C5 音楽動画 76 105 87 54 83 104 101 62 150 94 音楽のみ 133 65 127 92 46 69 49 73 124 61 178 43 映像のみ 21 50 142 49 81 78 C2 C6 V A 57 111

24.

手法の比較 all手法 音楽動画 音楽のみ 映像のみ 平均 adj手法 音楽動画 音楽のみ 映像のみ 平均 C1 C2 C3 C4 C5 C6 V A 平 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C1 C2 C3 C4 C5 C6 V A 平 0.733 0.869 0.710 0.750 0.667 0.838 0.650 0.842 0.757 0.667 0.635 0.595 0.667 0.581 0.775 0.706 0.733 0.670 0.714 0.736 0.733 0.759 0.536 0.829 0.603 0.850 0.720 0.705 0.747 0.679 0.725 0.595 0.814 0.653 0.809 0.716

25.

結果 • メディアタイプごとの適合率の平均は,音 楽動画が高い • C6,Arousalに関してはadj手法のほうが 特に適合率が高くなる • C3,C5,Valenceに関してはall手法のほ うが適合率が高くなる

26.

考察 • コメントがどのメディアに対してのもので あるかは印象によって異なる • C2(元気が出る)C5(滑稽)は音楽動画 • C3(切ない)は映像 • C6,Arousalはadj手法の方が適合率が高い • 形容詞で印象を表現することが多い • C6(かわいい)➡ 「かわいい」 • Arousal ➡ 「かっこいい」

27.

考察 • C6(かわいい)に対してコメントからの印 象推定は非常に有効である

28.

考察 • C1(堂々)C3(切ない)C5(滑稽)では 精度が低い • これらの印象を直接表すような単語が使われる 機会が少ない • 今回用いなかった別の品詞を利用しベクトルを 生成することで結果の検証

29.

まとめ • ニコニコ動画のコメントから音楽動画の印象 推定を行い,その精度について分析を実施 • 各メディア間においては,音楽動画の推定精度 が高い • 各印象ごとに推定精度の差がある • C6(かわいい)に関しては印象推定が有効で ある可能性がある [今後の展開] • 単語ベクトルの取り方を変える • より大規模なデータセットを用いる • コメント数の変化による結果の違い