>100 Views
March 07, 26
スライド概要
大喜多景元, "ドラム演奏のためのDNNに基づくリアルタイム叩打音量可視化システム," 香川高等専門学校電気情報工学科 卒業研究論文, 30 pages, 2026年2月.
北村研究室の学内・対外発表の発表スライドをまとめています.
ドラム演奏のためのDNNに基づく リアルタイム叩打音量可視化システム 5EC-08 大喜多 景元(北村研究室)
2 研究の背景 • ドラムセットは複数の音源で構成されている – キックドラム,スネアドラム,ハイハットシンバル等 – 複数の音源で構成されているため音量のバランスをとることが 難しい クラッシュ シンバル クラッシュ シンバル タムタム ハイハット シンバル キックドラム スネアドラム クラッシュ シンバル ライド シンバル フロアタム
3 研究の背景 • ドラムセットは各音源の叩打音量バランスが印象を左右 – 理想のバランス(キック>スネア>ハイハット)に近づける 必要がある 理想的 キック 大きい スネア ハイハット 小さい キック 小さい スネア ハイハット 大きい
4 研究の背景 • ドラムの叩打音量のバランスを打者が演奏しながら把握 することは難しい – 音源毎の音の伝搬や指向性によって音の伝わり方が違う – そのため演奏者と観客では音量のバランスの感じ方が違う 音量 音量 キック スネア ハイハット 演奏者 キック スネア ハイハット 1m 観客
研究の背景 • ドラムの叩打音量のバランスを打者が演奏しながら把握 することは難しい – 録音をして聞くのは時間や手間がかかる – 指導者が常についてくれるわけではないため難しい 時間と手間がかかる 指導者がいない場合は 難しい 5
6 本研究が目指すシステム • 観客の位置にマイクを置いて,キック,スネア,ハイハット の叩打音量バランスをリアルタイムに表示 音量 キック スネア ハイハット • リアルタイムに推定と分離という 二つのタスクをする必要があるため難しい 分離 音源信号 キック 推定 スネア 叩打音量を表示 音量 キック スネア ハイハット ハイハット
7 従来手法 • 従来の研究[細谷+, 2021]をもとに叩打音量の推定システムを 開発 – あらかじめ各音源の単独のサンプルをとる – スペクトル特徴を使って混合音から 各音源の割合を推定する 分離・推定 パワー キック 入力波形 パワー サンプルから特徴を取得 パワー 周波数 ハイハット 周波数 パワー 5% 周波数 スネア 70% 周波数 周波数 パワー パワー スネア パワー 周波数 キック 音量 バランス ハイハット 25% 周波数
研究内容 • DNNを用いて,サンプルの事前録音を不要にし, 高精度な推定を行う DNNを用いる動機 • あらかじめ大量のドラム音源データを使ってDNNを 学習しておくことでサンプル取得の手間を不要にする • 学習データには含まれない演奏者やドラムの音色でも 高い汎化性能で各音源の音量を推定できる • 実施内容 – 高精度に推定できるネットワークの構築 – 大規模なデータを用いた,教師データセットの作成 – 作成した教師データセットを用いたネットワークの学習 – 実録音データを用いた従来手法との比較実験 8
9 提案手法の全体像 • DNNによる叩打音量推定システム – キック, スネア, ハイハットの混ざった混合音源信号を 窓長32 [ms], シフトサイズ16 [ms]ごとにDNNへ入力 – DNNによって推定された各音源の音量を出力 各音源の叩打音量 全体像 複数音源の混合信号 キック 入力 DNN スネア ハイハット 拡大図 5% DNN 32 [ms] 16 [ms] キック スネア 25% ハイハット 70%
10 ネットワークの構成 ① リアルタイムに動かす必要がある – 再帰型ネットワークのGRUを使う 更新・リセット ゲート 入力 現時刻 隠れ状態 状態更新 前時刻 隠れ状態 候補状態 ② 時間方向の連続性をとらえる – 時間方向の畳み込みを行う1D Convolutionを用いる 入力 1 −1 1 2 3 4 × 5 6 7 8 9 10 11 × × 12 13 14 × × × × × × 1 フィルター + ・・・・・・・・・・・ + 出力 15 2 5 8 11 14 +
11 ネットワーク構造 ① GRUでリアルタイムな時系列処理を実現 ② Three-Frame Context Encoderで時間方向の連続性 Input Frame ② Frame Encoder Buffer 1 1D convolution Three-Frame Context Encoder 1 Buffer 2 Layer normalization Three-Frame Context Encoder 2 GRU 前時刻の 隠れ状態 ReLU ① FC Layer 1 FC Layer 2 Estimated drum gain 現時刻の 隠れ状態
教師データセットの作成 • データセットStemGMD [Mezza+, 2023]を使用 – 1224時間のオーディオデータ – 9つの基本的な楽器 – 10種類のドラムキット • StemGMDの各音源を約2秒ごとの短時間信号にする • 窓長512(32 [ms]),シフトサイズ256(16 [ms])ごとに 正解ラベルを付与 • 正解ラベルの付いた各音源を足し合わせる 各音源にラベルを付ける 各音源を混ぜる キック スネア ハイハット 混合信号 12
学習条件と学習曲線 • データセット – 学習:約11時間,検証:約1.6時間 • 学習条件 – 最適化手法:Adam – 学習率: – エポック数:50 – バッチサイズ:128 • 学習結果 – 損失関数としてMSEを使用 – 訓練時のMSEは794から1.98まで低下 – 検証持のMSEは117から1.90まで低下 – 過度な過学習は,確認されなかった 13
実験条件 • 実録音データセット[森末+, 2025]に含まれるデータを用いて DNNに基づく提案手法と従来手法を比較 – キック,スネア,ハイハットの混合音源データ ミックス キック スネア ハイハット 14
実験結果(キック) 混合信号 キックの単音信号 従来手法 DNNに基づく提案手法 正解値 15
実験結果(スネア) 混合信号 スネアの単音信号 従来手法 DNNに基づく提案手法 正解値 16
実験結果(ハイハット) 混合信号 ハイハットの単音信号 従来手法 DNNに基づく提案手法 正解値 17
18 実験結果と考察 • 全テストデータのMSEの平均をとると – すべての音源で提案手法の方が高精度 – 提案手法の中ではハイハットの推定精度が悪く,キックが精度 がよい 音源 従来手法 提案手法 キック 23.618 0.328 スネア 35.904 0.740 ハイハット 14.234 5.573 平均 24.586 2.214 – キックは周波数がかぶりずらいため,推定精度が高い – スネアとハイハットは被りやすいが,相対的に音量の低い ハイハットの推定精度が悪くなった キック パワー パワー パワー 周波数 ハイハット スネア 周波数 周波数
研究内容のまとめと今後の課題 19 • 研究内容のまとめ – 規模の大きいデータセットから教師データセットを作成し, ネットワークを構築,DNNに基づく叩打音量推定を行った – DNNに基づく提案手法はSNMFに基づく従来手法より誤差を 大きく低減し,その結果は特にKDとSDで顕著に表れた • 今後の課題 – システムが未実装であるため実環境で試すことができていない – 実環境により頑健性の調査や客観的評価を行う必要がある