独立した音楽と映像からの音楽動画の印象推定

151 Views

April 12, 16

スライド概要

DEIM2016で発表したスライドです。

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

独立した音楽と映像からの 音楽動画の印象推定 大野直紀(明治大学 総合数理学部B3) 土屋駿貴(明治大学 総合数理学部B3) 中村聡史(明治大学 総合数理学部) 山本岳洋(京都大学)

2.

泣きたい気分だから 悲しい音楽動画を 視聴したい… 気分を昂ぶらせたい! 激しい音楽動画を 視聴したい! でも知ってる曲には飽きてきたから 新しい音楽動画を視聴したい…

3.

印象を用いた検索は難しい!!

4.

背景 • 印象を用いた検索は難しい • キーワード検索 • テキスト情報に印象が書かれていることが少ない • タグ検索 • 印象を含むタグが少ない • ニコニコ動画では5%[山本09] • 印象を用いた検索の実現のためには検索対象 の印象を推定する必要がある

5.

関連研究 • 音楽の印象推定 • 映像の印象推定 • 音楽聴取で受ける 感動の評価要因 • 動画の特徴量から の感性の主因子の 因子得点の推定 音楽の印象 [大出09] • 音楽データを対象 としたイメージ検 索のための 感情価の自動生成 [佐藤99] 映像の印象 [宝珍04] ? 音楽動画の印象

6.

問題点 • 音楽動画内での各メディアの組み合わせに よって受ける印象が明らかでない • 音楽動画の印象は音楽の印象と映像の印象のどちらに影響 を受けるのか不明 • 音楽の印象推定,映像の印象推定ができても 音楽動画に適用できない!

7.

目的 音楽動画の印象を 音楽と映像の印象の組み合わせ を用いて推定する! • 音楽と映像の印象と音楽動画の印象の関係性 を明らかにする • 音楽の印象推定,映像の印象推定が可能になれば 組み合わせで音楽動画の印象推定も可能に!!

8.

目的 音楽の印象 映像の印象 ? 音楽動画の印象

9.

アプローチ ① 印象評価データセットを用いて 音楽と映像の組み合わさり方の分析 ② 意図されていない音楽と映像の組み合わせの 関係性を明らかにするためのデータ構築と 分析 ③ 組み合わせ手法の検討 ④ 印象推定

10.

印象評価データセット • ニコニコ動画上の音楽 C1 動画500件のサビ部分を C2 「音楽のみ」 C3 「映像のみ」 「音楽動画」 C4 の3メディアタイプに 分離したものを8印象 C5 に対して5段階で評価 C6 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい Valence 楽しい,悲しい Arousal 積極的,消極的

11.

分析 • 音楽,映像の印象がどのように組み合わさっ て音楽動画の印象になっているのかを分析 • 分析の際,音楽動画の印象評価値が-0.5以下 を低評価群,0.5以上のものを高評価群とする -2 -0.5 低評価群 +0.5 高評価群 +2

12.

分析 • 音楽動画の音楽,映像がどの評価群に属して いたかを調査 • 縦軸を映像のみ,横軸を音楽のみの印象評価 値とし,それから生成された音楽動画を評価 群ごとに色別にプロットしたものを各印象で 表示 音楽動画 音楽(x軸) 映像(y軸) B 2 -2 1 -1.5 1.5 C A 1.5 0 0.5 -1 -0.5 映像の印象評価 A +2 -2 1 0.5 -1.5 B -0.5 C -1 -2 音楽の印象評価 +2

13.

分析 高 ↑ 映 像 ↓ 低 低← 音楽 →高

14.

分析 高 ↑ 映 像 ↓ 低 低← 音楽 →高

15.

分析 高 ↑ 映 像 ↓ 低 低← 音楽 →高

16.

結果(オリジナル音楽動画) 堂々とした 元気が出る 切ない 激しい 滑稽な かわいい

17.

結果(オリジナル音楽動画) 楽しい,悲しい 積極的,消極的

18.

結果 • 各印象は音楽,映像から影響を受けている • C1(堂々とした),C2(元気が出る)では 音楽の影響を受けやすい • C3(切ない)C6(かわいい)では映像の影響 を受けやすい • C4(激しい)C5(滑稽な) Valence(楽しい, 悲しい)Arousal(積極的,消極的)ではどちら からも同程度の影響を受けている

19.

考察 • オリジナルの音楽動画は印象がそろえてある • 製作者が同じ印象を伝えようとしているから傾向 を見ることができたのでは? • 違う印象のものが少ない? • 音楽が明るい+映像が暗い • 音楽が落ち着いている+映像が激しい

20.

合成音楽動画に対する印象評価 • 印象評価データセットで使用した動画500件の サビ部分30秒を「音楽のみ」と「映像のみ」 に分離,それぞれを組み合わせて音楽動画を 作成(250000件) • そのうちの200件をランダムに取り出し評価 + 合成音楽動画 +

21.

結果(合成音楽動画) 堂々とした 元気が出る 激しい かわいい

22.

結果(合成音楽動画) 滑稽な 楽しい,悲しい 切ない 積極的,消極的

23.

結果 • C1(堂々)C2(元気の出る)C4(激しい)で は音楽の印象評価値から影響を受けやすい • C6(かわいい)では音楽,映像の印象評価値 から影響を受けやすい傾向 • オリジナルの音楽動画では傾向がみられた C3(切ない)C5(滑稽な)Valence(楽しい, 悲しい)Arousal(積極的,消極的)では傾向 がみられなかった • クオリティや製作者の意図が現れているのでは?

24.

組み合わせ手法の検討 • C1,C2,C4,C6では音楽のみ,映像のみから それぞれ影響を受けている傾向がある • C3,C5,Valence,Arousalに関してはオリジ ナルの音楽動画ならば相関がみられる 各印象はベクトルの計算で 印象推定が可能?

25.

重回帰分析 • 印象評価データセットを用いて重回帰分析, 得られた式に各印象のパラメータを代入して 推定 • 説明変数は「音楽のみ」「映像のみ」の同じ印象 のものを使用 C1=α×「音楽のみC1」+β×「映像のみC1」 • 5-fold cross-validationを用いて評価 • 400件で学習(回帰式を生成),100件を推定 • 得られた推定値との差が0.5以下になったもの の件数を表示

26.

結果 印象軸 C1(堂々とした) C2(元気が出る) C3(切ない) C4(激しい) C5(滑稽な) C6(かわいい) Valence(悲しい-楽しい) Arousal(消極的な-積極的な) 平均 52.6 54.8 54.8 49.8 52.0 57.0 61.0 60.8

27.

考察 • アンダーサンプリングを行ってデータを学習 • 印象同士の関係性を考慮した説明変数を 用いることで精度が向上するのでは? メディアタイプと印象 C6との相関係数 映像のみC1 0.4703 映像のみC2 0.6585 映像のみC3 -0.4816 映像のみC4 -0.3569 映像のみC5 0.1572 映像のみC6 0.7711

28.

まとめ • 音楽と映像の組み合わせを用いて印象推定を 行った • 音楽動画の印象は音楽と映像の印象評価に影 響をうけるが,適当な音楽動画では音楽の 印象評価に影響を受けやすい傾向がある • C3(切ない),C5(滑稽)Valence-Arousal では製作者の意図によって各メディアに影響 されるかされないかが変化する 〔今後の展開〕 • データを増やして検証 • 印象同士の関係性を考慮して式を構築