ドラム演奏のためのDNNに基づくリアルタイム叩打音量可視化システム

>100 Views

March 07, 26

スライド概要

大喜多景元, "ドラム演奏のためのDNNに基づくリアルタイム叩打音量可視化システム," 香川高等専門学校電気情報工学科 卒業研究論文, 30 pages, 2026年2月.

profile-image

北村研究室の学内・対外発表の発表スライドをまとめています.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

ドラム演奏のためのDNNに基づく リアルタイム叩打音量可視化システム 5EC-08 大喜多 景元(北村研究室)

2.

2 研究の背景 • ドラムセットは複数の音源で構成されている – キックドラム,スネアドラム,ハイハットシンバル等 – 複数の音源で構成されているため音量のバランスをとることが 難しい クラッシュ シンバル クラッシュ シンバル タムタム ハイハット シンバル キックドラム スネアドラム クラッシュ シンバル ライド シンバル フロアタム

3.

3 研究の背景 • ドラムセットは各音源の叩打音量バランスが印象を左右 – 理想のバランス(キック>スネア>ハイハット)に近づける 必要がある 理想的 キック 大きい スネア ハイハット 小さい キック 小さい スネア ハイハット 大きい

4.

4 研究の背景 • ドラムの叩打音量のバランスを打者が演奏しながら把握 することは難しい – 音源毎の音の伝搬や指向性によって音の伝わり方が違う – そのため演奏者と観客では音量のバランスの感じ方が違う 音量 音量 キック スネア ハイハット 演奏者 キック スネア ハイハット 1m 観客

5.

研究の背景 • ドラムの叩打音量のバランスを打者が演奏しながら把握 することは難しい – 録音をして聞くのは時間や手間がかかる – 指導者が常についてくれるわけではないため難しい 時間と手間がかかる 指導者がいない場合は 難しい 5

6.

6 本研究が目指すシステム • 観客の位置にマイクを置いて,キック,スネア,ハイハット の叩打音量バランスをリアルタイムに表示 音量 キック スネア ハイハット • リアルタイムに推定と分離という 二つのタスクをする必要があるため難しい 分離 音源信号 キック 推定 スネア 叩打音量を表示 音量 キック スネア ハイハット ハイハット

7.

7 従来手法 • 従来の研究[細谷+, 2021]をもとに叩打音量の推定システムを 開発 – あらかじめ各音源の単独のサンプルをとる – スペクトル特徴を使って混合音から 各音源の割合を推定する 分離・推定 パワー キック 入力波形 パワー サンプルから特徴を取得 パワー 周波数 ハイハット 周波数 パワー 5% 周波数 スネア 70% 周波数 周波数 パワー パワー スネア パワー 周波数 キック 音量 バランス ハイハット 25% 周波数

8.

研究内容 • DNNを用いて,サンプルの事前録音を不要にし, 高精度な推定を行う DNNを用いる動機 • あらかじめ大量のドラム音源データを使ってDNNを 学習しておくことでサンプル取得の手間を不要にする • 学習データには含まれない演奏者やドラムの音色でも 高い汎化性能で各音源の音量を推定できる • 実施内容 – 高精度に推定できるネットワークの構築 – 大規模なデータを用いた,教師データセットの作成 – 作成した教師データセットを用いたネットワークの学習 – 実録音データを用いた従来手法との比較実験 8

9.

9 提案手法の全体像 • DNNによる叩打音量推定システム – キック, スネア, ハイハットの混ざった混合音源信号を 窓長32 [ms], シフトサイズ16 [ms]ごとにDNNへ入力 – DNNによって推定された各音源の音量を出力 各音源の叩打音量 全体像 複数音源の混合信号 キック 入力 DNN スネア ハイハット 拡大図 5% DNN 32 [ms] 16 [ms] キック スネア 25% ハイハット 70%

10.

10 ネットワークの構成 ① リアルタイムに動かす必要がある – 再帰型ネットワークのGRUを使う 更新・リセット ゲート 入力 現時刻 隠れ状態 状態更新 前時刻 隠れ状態 候補状態 ② 時間方向の連続性をとらえる – 時間方向の畳み込みを行う1D Convolutionを用いる 入力 1 −1 1 2 3 4 × 5 6 7 8 9 10 11 × × 12 13 14 × × × × × × 1 フィルター + ・・・・・・・・・・・ + 出力 15 2 5 8 11 14 +

11.

11 ネットワーク構造 ① GRUでリアルタイムな時系列処理を実現 ② Three-Frame Context Encoderで時間方向の連続性 Input Frame ② Frame Encoder Buffer 1 1D convolution Three-Frame Context Encoder 1 Buffer 2 Layer normalization Three-Frame Context Encoder 2 GRU 前時刻の 隠れ状態 ReLU ① FC Layer 1 FC Layer 2 Estimated drum gain 現時刻の 隠れ状態

12.

教師データセットの作成 • データセットStemGMD [Mezza+, 2023]を使用 – 1224時間のオーディオデータ – 9つの基本的な楽器 – 10種類のドラムキット • StemGMDの各音源を約2秒ごとの短時間信号にする • 窓長512(32 [ms]),シフトサイズ256(16 [ms])ごとに 正解ラベルを付与 • 正解ラベルの付いた各音源を足し合わせる 各音源にラベルを付ける 各音源を混ぜる キック スネア ハイハット 混合信号 12

13.

学習条件と学習曲線 • データセット – 学習:約11時間,検証:約1.6時間 • 学習条件 – 最適化手法:Adam – 学習率: – エポック数:50 – バッチサイズ:128 • 学習結果 – 損失関数としてMSEを使用 – 訓練時のMSEは794から1.98まで低下 – 検証持のMSEは117から1.90まで低下 – 過度な過学習は,確認されなかった 13

14.

実験条件 • 実録音データセット[森末+, 2025]に含まれるデータを用いて DNNに基づく提案手法と従来手法を比較 – キック,スネア,ハイハットの混合音源データ ミックス キック スネア ハイハット 14

15.

実験結果(キック) 混合信号 キックの単音信号 従来手法 DNNに基づく提案手法 正解値 15

16.

実験結果(スネア) 混合信号 スネアの単音信号 従来手法 DNNに基づく提案手法 正解値 16

17.

実験結果(ハイハット) 混合信号 ハイハットの単音信号 従来手法 DNNに基づく提案手法 正解値 17

18.

18 実験結果と考察 • 全テストデータのMSEの平均をとると – すべての音源で提案手法の方が高精度 – 提案手法の中ではハイハットの推定精度が悪く,キックが精度 がよい 音源 従来手法 提案手法 キック 23.618 0.328 スネア 35.904 0.740 ハイハット 14.234 5.573 平均 24.586 2.214 – キックは周波数がかぶりずらいため,推定精度が高い – スネアとハイハットは被りやすいが,相対的に音量の低い ハイハットの推定精度が悪くなった キック パワー パワー パワー 周波数 ハイハット スネア 周波数 周波数

19.

研究内容のまとめと今後の課題 19 • 研究内容のまとめ – 規模の大きいデータセットから教師データセットを作成し, ネットワークを構築,DNNに基づく叩打音量推定を行った – DNNに基づく提案手法はSNMFに基づく従来手法より誤差を 大きく低減し,その結果は特にKDとSDで顕著に表れた • 今後の課題 – システムが未実装であるため実環境で試すことができていない – 実環境により頑健性の調査や客観的評価を行う必要がある