ドラム演奏のためのDNNに基づくリアルタイム叩打音量可視化システム

206 Views

March 07, 26

#ドラム演奏 #叩打音量推定 #dnn #gru #ドラム #音量可視化 #DNN #リアルタイム #音源分離

スライド概要

大喜多景元, "ドラム演奏のためのDNNに基づくリアルタイム叩打音量可視化システム," 香川高等専門学校電気情報工学科卒業研究論文, 30 pages, 2026年2月.

Kitamura Laboratory

@8262029599

スライド一覧

北村研究室の学内・対外発表の発表スライドをまとめています．

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

時間微分スペクトログラムを用いたブラインド音源分離

Kitamura Laboratory 2K

Audio spotforming using nonnegative tensor factorization with attractor-based regularization

Kitamura Laboratory 1.9K

深層パーミュテーション解決法に基づくブラインド音源分離

Kitamura Laboratory 1.4K

正則化非負値行列因子分解による非負低ランク行列補完

Kitamura Laboratory 1.4K

補助関数法に基づくスパース正則化付き非負値行列因子分解と行列補完への応用

非負値行列因子分解スパース正則化補助関数法単調非増加性

Kitamura Laboratory 1.2K

深層学習を用いた単一話者発話区間検出

Kitamura Laboratory 1.1K

各ページのテキスト

ドラム演奏のためのDNNに基づくリアルタイム叩打音量可視化システム 5EC-08 大喜多景元（北村研究室）

2 研究の背景 • ドラムセットは複数の音源で構成されている – キックドラム，スネアドラム，ハイハットシンバル等 – 複数の音源で構成されているため音量のバランスをとることが難しいクラッシュシンバルクラッシュシンバルタムタムハイハットシンバルキックドラムスネアドラムクラッシュシンバルライドシンバルフロアタム

3 研究の背景 • ドラムセットは各音源の叩打音量バランスが印象を左右 – 理想のバランス（キック>スネア>ハイハット）に近づける必要がある理想的キック大きいスネアハイハット小さいキック小さいスネアハイハット大きい

4 研究の背景 • ドラムの叩打音量のバランスを打者が演奏しながら把握することは難しい – 音源毎の音の伝搬や指向性によって音の伝わり方が違う – そのため演奏者と観客では音量のバランスの感じ方が違う音量音量キックスネアハイハット演奏者キックスネアハイハット 1m 観客

研究の背景 • ドラムの叩打音量のバランスを打者が演奏しながら把握することは難しい – 録音をして聞くのは時間や手間がかかる – 指導者が常についてくれるわけではないため難しい時間と手間がかかる指導者がいない場合は難しい 5

6 本研究が目指すシステム • 観客の位置にマイクを置いて，キック，スネア，ハイハットの叩打音量バランスをリアルタイムに表示音量キックスネアハイハット • リアルタイムに推定と分離という二つのタスクをする必要があるため難しい分離音源信号キック推定スネア叩打音量を表示音量キックスネアハイハットハイハット

7 従来手法 • 従来の研究[細谷+, 2021]をもとに叩打音量の推定システムを開発 – あらかじめ各音源の単独のサンプルをとる – スペクトル特徴を使って混合音から各音源の割合を推定する分離・推定パワーキック入力波形パワーサンプルから特徴を取得パワー周波数ハイハット周波数パワー 5% 周波数スネア 70% 周波数周波数パワーパワースネアパワー周波数キック音量バランスハイハット 25% 周波数

研究内容 • DNNを用いて，サンプルの事前録音を不要にし，高精度な推定を行う DNNを用いる動機 • あらかじめ大量のドラム音源データを使ってDNNを学習しておくことでサンプル取得の手間を不要にする • 学習データには含まれない演奏者やドラムの音色でも高い汎化性能で各音源の音量を推定できる • 実施内容 – 高精度に推定できるネットワークの構築 – 大規模なデータを用いた，教師データセットの作成 – 作成した教師データセットを用いたネットワークの学習 – 実録音データを用いた従来手法との比較実験 8

9 提案手法の全体像 • DNNによる叩打音量推定システム – キック, スネア, ハイハットの混ざった混合音源信号を窓長32 [ms], シフトサイズ16 [ms]ごとにDNNへ入力 – DNNによって推定された各音源の音量を出力各音源の叩打音量全体像複数音源の混合信号キック入力 DNN スネアハイハット拡大図 5% DNN 32 [ms] 16 [ms] キックスネア 2５% ハイハット 70%

10.

10 ネットワークの構成 ① リアルタイムに動かす必要がある – 再帰型ネットワークのGRUを使う更新・リセットゲート入力現時刻隠れ状態状態更新前時刻隠れ状態候補状態 ② 時間方向の連続性をとらえる – 時間方向の畳み込みを行う1D Convolutionを用いる入力 1 −1 1 2 3 4 × 5 6 7 8 9 10 11 × × 12 13 14 × × × × × × 1 フィルター + ・・・・・・・・・・・ + 出力 15 2 5 8 11 14 +

11.

11 ネットワーク構造 ① GRUでリアルタイムな時系列処理を実現 ② Three-Frame Context Encoderで時間方向の連続性 Input Frame ② Frame Encoder Buffer 1 1D convolution Three-Frame Context Encoder 1 Buffer 2 Layer normalization Three-Frame Context Encoder 2 GRU 前時刻の隠れ状態 ReLU ① FC Layer 1 FC Layer 2 Estimated drum gain 現時刻の隠れ状態

12.

教師データセットの作成 • データセットStemGMD [Mezza+, 2023]を使用 – 1224時間のオーディオデータ – 9つの基本的な楽器 – 10種類のドラムキット • StemGMDの各音源を約2秒ごとの短時間信号にする • 窓長512（32 [ms]），シフトサイズ256（16 [ms]）ごとに正解ラベルを付与 • 正解ラベルの付いた各音源を足し合わせる各音源にラベルを付ける各音源を混ぜるキックスネアハイハット混合信号 12

13.

学習条件と学習曲線 • データセット – 学習：約11時間，検証：約1.6時間 • 学習条件 – 最適化手法：Adam – 学習率： – エポック数：50 – バッチサイズ：128 • 学習結果 – 損失関数としてMSEを使用 – 訓練時のMSEは794から1.98まで低下 – 検証持のMSEは117から1.90まで低下 – 過度な過学習は，確認されなかった 13

14.

実験条件 • 実録音データセット[森末+, 2025]に含まれるデータを用いて DNNに基づく提案手法と従来手法を比較 – キック，スネア，ハイハットの混合音源データミックスキックスネアハイハット 14

15.

実験結果（キック）混合信号キックの単音信号従来手法 DNNに基づく提案手法正解値 15

16.

実験結果（スネア）混合信号スネアの単音信号従来手法 DNNに基づく提案手法正解値 16

17.

実験結果（ハイハット）混合信号ハイハットの単音信号従来手法 DNNに基づく提案手法正解値 17

18.

18 実験結果と考察 • 全テストデータのMSEの平均をとると – すべての音源で提案手法の方が高精度 – 提案手法の中ではハイハットの推定精度が悪く，キックが精度がよい音源従来手法提案手法キック 23.618 0.328 スネア 35.904 0.740 ハイハット 14.234 5.573 平均 24.586 2.214 – キックは周波数がかぶりずらいため，推定精度が高い – スネアとハイハットは被りやすいが，相対的に音量の低いハイハットの推定精度が悪くなったキックパワーパワーパワー周波数ハイハットスネア周波数周波数

19.

研究内容のまとめと今後の課題 19 • 研究内容のまとめ – 規模の大きいデータセットから教師データセットを作成し，ネットワークを構築，DNNに基づく叩打音量推定を行った – DNNに基づく提案手法はSNMFに基づく従来手法より誤差を大きく低減し，その結果は特にKDとSDで顕著に表れた • 今後の課題 – システムが未実装であるため実環境で試すことができていない – 実環境により頑健性の調査や客観的評価を行う必要がある