配信ライブの同時視聴におけるヘッドバンギング同期のための動作推定手法

116 Views

March 17, 21

スライド概要

音楽ライブに参加する観客は演奏に合わせてサイリウムを振る,ヘッドバンギングをするなど,アーティストや他の観客との一体感や非日常感を楽しんでいる.また,ライブの模様を,インターネットを通じて配信する配信ライブも多く行われているが,自宅でひとりで鑑賞することが多く,アーティストや他のファンとのかかわりや一体感が希薄化する問題がある.そこで,配信ライブ中の視聴者間の一体感を向上させることを目的に,ライブ中に行われるヘッドバンギングを媒介として,その動作を検知し,タイミングを視聴者間で共有するシステムを提案する.本研究ではポケットに入れたスマートフォンのセンサデータを使い,ヘッドバンギングの予備動作からヘッドバンギングの推定に関する検討を行った.具体的には,ヘッドバンギング中のセンサデータに関するデータセット構築を行い,機械学習により,予備動作からヘッドバンギングの推定を行った.その結果,93.5% の精度で推定を行うことができた.

profile-image

Nakamura Laboratory (Meiji University)

@nkmr-lab

スライド一覧

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

埋め込む »CMSなどでJSが使えない場合

各ページのテキスト
1.

配信ライブの同時視聴における ヘッドバンギング同期のための 動作推定手法 二宮 洸太 中村 聡史 明治大学総合数理学部 4年 SIGMUS130/EC59

2.

背景: ライブの盛り上がり ライブが盛り上がっている 2019年観客動員数5497万人(2009年に比べて2倍以上) ライブ特有の音楽体験 アーティストとファンが一体となって作りあげる非日常感 ファン同士で行うライブモーション 手拍子,サイリウム,ヘッドバンギング これらによって一体感を生み出している

3.

背景: ライブの盛り上がり ライブが盛り上がっている 2019年観客動員数5497万人(2009年に比べて2倍以上) ライブ特有の音楽体験 アーティストとファンが一体となって作りあげる非日常感 ファン同士で行うライブモーション 手拍子,サイリウム,ヘッドバンギング これらによって一体感を生み出している

4.

ヘッドバンギングとは? ヘッドバンギング(ヘドバン) メタル,ラウド等のロックバンドのライブで見られるライブモーション 音楽のビートにあわせて激しくうなずくこと [Robertら 1993] ライブで他の観客とやると楽しいため,多く見られる https://youtu.be/kHPxKaCpXxI

5.

背景: 配信ライブの広がり ライブの模様をインターネットを通じて配信 どこからでも視聴できる 会場に多くの人を集める必要がない 配信ライブ中の盛り上がり方 コメント,投げ銭 サイリウムを振る・ヘドバンをひとりで行う

6.

背景: 配信ライブでの盛り上がり 部屋真っ暗にして酒飲みながらヘドバンしてきます いきなりMonolithでパソコンに向かってヘドバン しながら脳内サークル 体が勝手に動いて、気づいたらヘドバンしてた! 近所迷惑になるので控えめに家で暴れました https://twitter.com/terucrossfaith/status/1302824740940201984

7.

背景: 配信ライブでの盛り上がり 部屋真っ暗にして酒飲みながらヘドバンしてきます いきなりMonolithでパソコンに向かってヘドバン しながら脳内サークル 体が勝手に動いて、気づいたらヘドバンしてた! 近所迷惑になるので控えめに家で暴れました 多くの人が家でヘドバンしながら鑑賞している https://twitter.com/terucrossfaith/status/1302824740940201984

8.

背景: 配信ライブでの盛り上がり 部屋真っ暗にして酒飲みながらヘドバンしてきます いきなりMonolithでパソコンに向かってヘドバン しながら脳内サークル 実際のライブのような一体感を得ることは難しい 体が勝手に動いて、気づいたらヘドバンしてた! 近所迷惑になるので控えめに家で暴れました 多くの人が家でヘドバンしながら鑑賞している https://twitter.com/terucrossfaith/status/1302824740940201984

9.

目的 配信ライブ中のヘドバンを共有し 一体感の向上を目指す

10.

目的 配信ライブ中のヘドバンを共有し 一体感の向上を目指す ヘドバン共有システムを作成

11.

ヘドバン共有システム • 視聴者は各自宅で視聴 PCとスマホで視聴 • パソコン ライブ映像の視聴 • スマートフォン センサ情報取得 ヘドバンの推定 • ヘドバン共有システム 推定されたヘドバン情報を 他の視聴者に共有 一体感向上を図る

12.

ヘドバン共有システム • 視聴者は各自宅で視聴 PCとスマホで視聴 • パソコン ライブ映像の視聴 • スマートフォン センサ情報取得 ヘドバンの推定 • ヘドバン共有システム 推定されたヘドバン情報を 他の視聴者に共有 一体感向上を図る

13.

本発表の流れ ヘドバンデータセット構築 機械学習によるヘドバンの推定

14.

ヘドバンデータセット構築 ヘドバンを介した一体感向上 → ヘドバン動作の推定が必要 ヘドバン動作と対応するセンサ情報のデータセットを構築 センサ情報 ヘドバンは動きが早くカメラで捉えづらい センサ情報はスマートフォンで取得 多くの人が利用できる環境を想定しスマホを利用 収集はズボンのポケットで行う スマホが飛んでいく可能性が低いため

15.

データ収集システム Webシステムを作成 スマホとPCを利用し,それらが同期 スマホ: 楽曲再生(ヘドバンは楽曲を聴いて行う)・センサデータ取得 PC: 動画記録(ヘドバン情報のアノテーションに利用) 取得するセンサ情報(JavaScriptで取得) 3軸加速度(x, y, z) 3軸デバイス方向(alpha, beta, gamma) 楽曲(右表) ライブでヘドバンする曲 歌唱アーティスト 曲名 Fear, and Loathing in Las Vegas Twilight Crossfaith Monolith coldrain The Revelation SiM JACK. B Survive Said The Prophet TRANSlated

16.

データセット構築実験 実験協力者: ヘドバンを行うライブに行く大学生6名(男: 5, 女: 1, 著者含む) 実験環境 • • • • • • 実験協力者の自宅で実施 楽曲は事前に聴きこんでもらった ヘドバン区間も事前に各自の判断で決定 楽曲の再生はイヤホンを利用 スマートフォンの向きは指示(右図) 首や腰への負担を加味し,複数日での実施を推奨 試行回数 5曲 × 5回

17.

センサとラベル(大域)

18.

センサとラベル(大域)

19.

センサとラベル(詳細)

20.

機械学習による推定 一緒にヘドバンをしていると感じる → 頭の下げ始め・上げ始めのタイミングが一致 これを推定する 非ヘドバン,振下開始,振上開始の3値分類 リアルタイム推定を想定 ある時点までのデータからその先を推定 推定位置 特徴量区間 インターバル ヘドバンの振下・振上動作 予備動作を利用 共有対象のヘドバン 認識時間と通信遅延を加味 頭の下げ始め

21.

機械学習: 学習方法 データセット構築で得られた150試行を利用 80%をTrain,20%をTest アルゴリズムはRandom Forestを利用(scikit-learn) 特徴量区間内のデータ 利用するデータ 加速度とその差分 デバイス方向とその差分 (差分導出: 𝑑𝑛 = 𝑥𝑛 − 𝑥𝑛−1 ) 統計量 平均,標準偏差,最大,最小 インターバルと特徴量区間の長さ 短い時間で推定したい 短いほど推定は難しい 時間を変化させ,精度への影響を調査 インターバル 50, 75, 100ミリ秒 特徴量時間 100, 150, 200, 250, 300ミリ秒

22.

予測までの時間と精度 推定位置 特徴量 区間 インター バル 1回のヘドバン 動作 正解率 イ ン タ ー バ ル 特徴量区間 100 150 200 250 300 50 0.870 0.900 0.912 0.921 0.933 75 0.871 0.901 0.913 0.924 0.933 100 0.870 0.901 0.913 0.930 0.935

23.

予測までの時間と精度 推定位置 特徴量 区間 インター バル 1回のヘドバン 動作 特徴量区間は長いほど精度が高い 正解率 イ ン タ ー バ ル 特徴量区間 100 150 200 250 300 50 0.870 0.900 0.912 0.921 0.933 75 0.871 0.901 0.913 0.924 0.933 100 0.870 0.901 0.913 0.930 0.935

24.

予測までの時間と精度 推定位置 特徴量 区間 インター バル 1回のヘドバン 動作 特徴量区間は長いほど精度が高い インターバルはあまり変化がない 時間変化が25ミリ秒と短かった? 正解率 イ ン タ ー バ ル 特徴量区間 100 150 200 250 300 50 0.870 0.900 0.912 0.921 0.933 75 0.871 0.901 0.913 0.924 0.933 100 0.870 0.901 0.913 0.930 0.935

25.

予測までの時間と精度 推定位置 特徴量 区間 インター バル 1回のヘドバン 動作 正解率 イ ン タ ー バ ル 特徴量区間 100 150 200 250 300 50 0.870 0.900 0.912 0.921 0.933 75 0.871 0.901 0.913 0.924 0.933 100 0.870 0.901 0.913 0.930 0.935 特徴量区間は長いほど精度が高い インターバルはあまり変化がない 時間変化が25ミリ秒と短かった? → インターバルの長さより特徴量区間の長さが重要

26.

展望 1. ヘドバン区間の分析 2. ヘドバン共有方法の検討

27.

展望: ヘドバン区間の分析 任意の区間でヘドバンを行ってもらった 多くの区間でヘドバン箇所が一致 → 楽曲特徴からヘドバン区間を決めている可能性がある

28.

展望: ヘドバン区間の分析 任意の区間でヘドバンを行ってもらった 多くの区間でヘドバン箇所が一致 → 楽曲特徴からヘドバン区間を決めている可能性がある

29.

展望: ヘドバン共有方法 目標とするシステムではヘドバンを視聴者間で共有 これにより,一体感の向上を目指す ヘドバン中 画面を見ることができない → 視覚以外の方法で共有することが求められる 共有方法 聴覚情報: ライブ音声を変化させる 触覚情報: スマートフォンを振動させる

30.

まとめ 背景 配信ライブではアーティストや他の視聴者の存在が希薄化し一体感を感じづらい ライブ中に行うヘドバンなどをひとりで行っている 目的 配信ライブ中のヘドバンを検出し,共有することで一体感の向上を目指す 提案手法 ヘドバンデータセットを構築 機械学習により,ヘドバンの開始地点を推定 結果 最大93.5%の精度で推定できた 展望 ヘドバンの共有方法の検討 ヘドバン区間の楽曲的な特徴を明らかにする