音量比特徴量の重み付きクラスタリングに基づくドラムセット収録時の被り音抑圧

493 Views

March 02, 26

#被り音抑圧 #ドラムセット #クラスタリング #ドラム録音 #音量比特徴量 #教師無し学習

スライド概要

鈴木慶,"音量比特徴量の重み付きクラスタリングに基づくドラムセット収録時の被り音抑圧,"香川高等専門学校専攻科電気情報工学科コース特別研究論文, 155 pages, 2026年2月.

Kitamura Laboratory

@8262029599

スライド一覧

北村研究室の学内・対外発表の発表スライドをまとめています．

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

時間微分スペクトログラムを用いたブラインド音源分離

Kitamura Laboratory 2K

Audio spotforming using nonnegative tensor factorization with attractor-based regularization

Kitamura Laboratory 1.9K

深層パーミュテーション解決法に基づくブラインド音源分離

Kitamura Laboratory 1.4K

正則化非負値行列因子分解による非負低ランク行列補完

Kitamura Laboratory 1.4K

補助関数法に基づくスパース正則化付き非負値行列因子分解と行列補完への応用

非負値行列因子分解スパース正則化補助関数法単調非増加性

Kitamura Laboratory 1.1K

深層学習を用いた単一話者発話区間検出

Kitamura Laboratory 1.1K

各ページのテキスト

AS2特別研究Ⅱ発表審査会 2026/02/04 8:50 ~ 12:00 音量比特徴量の重み付きクラスタリングに基づくドラムセット収録時の被り音抑圧鈴木慶（北村研究室）

2 研究背景 • ドラムのレコーディング環境 – ドラム1つに対して複数本のマイクを各音源に近接 – 各マイクが近接させた音源（目的音源）のみの録音が目的ハイハットスネアドラムキックドラムハイハットの演奏音スネアドラムの演奏音オーディオミキサーキックドラムの演奏音

3 研究背景 • ドラムのレコーディング環境 – 各音源に適切な処理を行いそれらをミキシングするハイハットの演奏音ハイハット用の処理ハイハットの演奏音スネアドラム用の処理スネアドラムの演奏音キックドラムの演奏音スネアドラムの演奏音キックドラム用の処理キックドラムの演奏音オーディオミキサー + 最適化された演奏音を合成ドラムセットの演奏音

4 研究背景 • 被り音（クロストーク） – マイクをどれだけ近接させても目的音以外の音（被り音）が混入 – 各音源の音質調整が難しくなり，演奏音質の低下に繋がる被り音オーディオミキサースネアドラム用の処理被り音信号処理を用いて被り音を抑圧することが求められる

5 研究背景 • ドラム音源分離（drum source separation: DSS） – マイク1本で観測したドラムセット全体の音を各音源に分離ドラムセット全体の演奏音ハイハットの演奏音 DNN スネアドラムの演奏音キックドラムの演奏音 – 深層ニューラルネットワーク（deep neural network: DNN）を利用 • 大規模なモノラル信号のデータセットで学習[Mezza+, 2024] – この手法を被り音抑圧にも応用できないか学習モノラル信号大規模データセット

6 研究背景 • 被り音抑圧を目的としたDNN ハイハットの演奏音スネアドラムの演奏音ハイハットの演奏音 DNN キックドラムの演奏音 – DNNへの入力が多チャネルとなる – 大規模な多チャネル信号のデータセットが必要 – 多チャネル信号のデータセットは現状存在せず作成も困難スネアドラムの演奏音キックドラムの演奏音学習多チャネル信号大規模データセット

研究背景 • 大規模なデータセット作成が困難な理由 – 物理的なセットアップの困難さ • 20本程度のマイクロホンや大規模なオーディオミキサーが必要 – 正解ラベル収録のため，各音源の個別録音（別録り）が必要 • 1つの音源単独の演奏はドラマーにとって不自然で難しい演奏のずれ・偏りが生じ，演奏音（データセット）の質が低下 • 小規模なデータセットであれば作成可能 – DNNの性能を担保できる量ではない 7

8 研究背景 • データセットが大規模でなくてもDNNへ何かしらの補助情報を与えることで性能が向上：被り音そのままのデータ多チャネル信号データセット学習データ大まかに被り音抑圧した信号補助情報大規模でなくても DNNの精度を担保どのように被り音抑圧するのか（教師無し学習である必要） DNN

9 研究背景 • 目的音と被り音の間には大きな音量比が存在被り音被り音観測した演奏音の音量 – 目的音源にマイクロホンを近づけているため，目的音は大きく，被り音は小さく観測キックドラムスネアドラムハイハットキックドラムの場合 • 補助情報を生成するうえで大きな手掛かりとなる – 音量比を表す特徴量を生成し，被り音抑圧を行う

10.

10 研究背景 • 目的音と被り音の間には大きな音量比が存在 – 目的音源にマイクロホンを近づけているため，目的音は大きく，被り音は小さく観測被り音観測した演奏音の音量被り音キックドラムスネアドラムハイハットスネアドラムの場合 • 補助情報を生成するうえで大きな手掛かりとなる – 音量比を表す特徴量を生成し，被り音抑圧を行う

11.

11 研究背景 • 目的音と被り音の間には大きな音量比が存在 – 目的音源にマイクロホンを近づけているため，目的音は大きく，被り音は小さく観測被り音観測した演奏音の音量被り音キックドラムスネアドラムハイハットハイハットの場合 • 補助情報を生成するうえで大きな手掛かりとなる – 音量比を表す特徴量を生成し，被り音抑圧を行う

12.

12 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理観測信号（被り音あり）被り音抑圧信号音量比を用いた被り音抑圧音量比特徴量の生成観測スペクトログラムクラスタリングマスク生成音量比特徴量マスキング処理時間周波数マスク被り音抑圧スペクトログラム

13.

13 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理観測信号（被り音あり）被り音抑圧信号音量比を用いた被り音抑圧音量比特徴量の生成観測スペクトログラムクラスタリングマスク生成音量比特徴量マスキング処理時間周波数マスク被り音抑圧スペクトログラム

14.

14 提案手法 • 観測信号とスペクトログラムの変換 – 短時間フーリエ変換（short-time Fourier transform: STFT）時間周波数領域マイクの観測信号・・・時間窓関数シフト長周波数時間領域離散フーリエ変換複素スペクトログラム複素数要素を持つ行列振幅スペクトログラムフーリエ変換長（窓長）非負（以上）の実数要素の行列

15.

15 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理観測信号（被り音あり）被り音抑圧信号音量比を用いた被り音抑圧音量比特徴量の生成観測スペクトログラムクラスタリングマスク生成音量比特徴量マスキング処理時間周波数マスク被り音抑圧スペクトログラム

16.

16 提案手法 • 特徴量への変換観測スペクトログラム – 音量比 – 振幅のノルム : 観測スペクトログラム : 時間 : 周波数 : マイク • 音量比を特徴量とし，振幅のノルムを特徴量に対する重みとする，重み付き特徴量が計算される

17.

提案手法 17 • 特徴量空間への表現 – 音量比の制約 – 上記の制約を持つデータは次元標準単体上に表現 – 音量比の大きいデータは標準単体上の頂点付近に位置キックドラムの音量比スネアドラムの音量比ハイハットの音量比 – 標準単体の各頂点はそれぞれの音源に対応の場合の例

18.

提案手法 18 • 特徴量空間への表現 – 音量比の制約 – 上記の制約を持つデータは次元標準単体上に表現 – 音量比の大きいデータは標準単体上の頂点付近に位置キックドラムの音量比スネアドラムの音量比ハイハットの音量比 – 標準単体の各頂点はそれぞれの音源に対応の場合の例

19.

提案手法 19 • 特徴量空間への表現 – 音量比の制約 – 上記の制約を持つデータは次元標準単体上に表現 – 音量比の大きいデータは標準単体上の頂点付近に位置キックドラムの音量比スネアドラムの音量比ハイハットの音量比 – 標準単体の各頂点はそれぞれの音源に対応の場合の例

20.

提案手法 • 生成される特徴量空間 – 次元標準単体上に重みが付与されて表現の場合の例 – 各音源に対応したクラスタが見られる • クラスタを分離することは被り音抑圧につながる 20

21.

21 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理観測信号（被り音あり）被り音抑圧信号音量比を用いた被り音抑圧音量比特徴量の生成観測スペクトログラムクラスタリングマスク生成音量比特徴量マスキング処理時間周波数マスク被り音抑圧スペクトログラム

22.

22 提案手法 • クラスタリングにあたってハイハットのクラスタの場合の例＝＋スネアドラムのクラスタ – データ点をそのまま分離することは難しい – ディリクレ分布でモデル化→クラスタリング • 音量比特徴量の制約を持つデータが従う分布＋キックドラムのクラスタ

23.

23 提案手法 • ディリクレ分布 – 確率密度関数 : ガンマ関数 – 形状パラメータによってディリクレ分布の形状が異なるの場合のディリクレ分布の例

24.

24 提案手法 • 音量比特徴量を混合ディリクレ分布（Dirichlet mixture model: DMM）と仮定 – 確率密度関数この2つのパラメータを推定することでディリクレ分布を分離することができる : 混合係数 : クラスタ – DMMから各ディリクレ分布を分離するために DMMにおけるEMアルゴリズム[A. Narayanan, 1992]を用いる • 期待値ステップ（expectation-step: E-step）及び最大化ステップ（maximization-step: M-step）を繰り返すことで DMMからディリクレ分布を分離

25.

25 提案手法 • DMMにおけるEMアルゴリズム – E-step • 音量比特徴量がクラスタに属する確率（事後確率）の更新 – M-step • 混合係数の更新 • 形状パラメータの更新 – 解析的に解けないため，次式を目的関数とするニュートンラフソン法で近似

26.

26 提案手法 • DMMにおけるEMアルゴリズム – E-step及びM-stepを，事後確率の変化量が閾値を下回るまで繰り返す – 推定された及びによってディリクレ分布が分離されるハイハットのクラスタクラスタリングスネアドラムのクラスタ – 推定されたディリクレ分布から時間周波数マスクを生成するキックドラムのクラスタ

27.

27 提案手法 • 時間周波数マスクの生成 – 正規化された各クラスタの確率密度が時間周波数マスクとなる – マスクが目的音を過剰に抑圧してしまうことを防ぐため，でマスクを緩和時間周波数マスクでスケーリングマスク生成

28.

28 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理観測信号（被り音あり）被り音抑圧信号音量比を用いた被り音抑圧音量比特徴量の生成観測スペクトログラムクラスタリングマスク生成音量比特徴量マスキング処理時間周波数マスク被り音抑圧スペクトログラム

29.

29 提案手法 • 時間周波数マスクによる被り音抑圧 – 時間周波数マスクと観測スペクトログラムの要素積で実現 – マスキングされたスペクトログラムは被り音が抑圧されているキックドラム近接マイクキックドラム時間周波数マスクキックドラム被り音抑圧信号＝スネアドラム近接マイクスネアドラム時間周波数マスクスネアドラム被り音抑圧信号＝ハイハット近接マイクハイハット被り音抑圧信号ハイハット時間周波数マスク＝は行列の要素積を行う演算子

30.

30 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理観測信号（被り音あり）被り音抑圧信号音量比を用いた被り音抑圧音量比特徴量の生成観測スペクトログラムクラスタリングマスク生成音量比特徴量マスキング処理時間周波数マスク被り音抑圧スペクトログラム

31.

実験条件 31 • 3つの音源による実演奏音から特徴量空間の生成と被り音抑圧を実施キックドラムスネアドラムハイハット • 以下の結果を確認 – 音量比特徴量 – クラスタリングにより推定されたディリクレ分布 – 被り音抑圧性能（を1~0.1まで0.02ずつ等分割して比較） • 評価指標：信号対干渉音比（source-to-interference ratio: SIR）改善量 →目的音に対する被り音の干渉度合いを表す

32.

32 実験結果 • 生成された音量比特徴量 – 各音源間で明確なクラスタが観測 – キックドラム: 他クラスから孤立して分布スネアドラム，ハイハット: 互いに近接した領域にクラスタを形成スネアドラムハイハットキックドラム

33.

33 実験結果 • クラスタリング結果音量比特徴量 – 各クラスタが適切に分離 – 分散が音源ごとに異なるキックドラムのクラスタスネアドラムのクラスタハイハットのクラスタ

34.

34 実験結果 • 被り音抑圧性能 SIR改善量 [dB] – 被り音抑圧の性能は音源毎に異なる – を適切に決めることで抑圧性能を最大化できる – DNNへの補助情報としては十分な精度緩和されたマスク強烈なマスク

35.

まとめ 35 • 研究背景 – 音量比特徴量を用いた教師無し重み付きクラスタリングによるドラム被り音抑圧手法を提案 • 研究結果 – 音源ごとに抑圧精度は異なるが大まかな被り音抑圧が可能 – 被り音抑圧におけるDNNの学習において，有効な補助入力となることが期待 • 発表業績 – 第27回日本音響学会関西支部若手研究者交流研究発表会 – 日本音響学会第154回(2025年秋季)研究発表会