音量比特徴量の重み付きクラスタリングに基づくドラムセット収録時の被り音抑圧

>100 Views

March 02, 26

スライド概要

鈴木慶,"音量比特徴量の重み付きクラスタリングに基づくドラムセット収録時の被り音抑圧,"香川高等専門学校専攻科電気情報工学科コース 特別研究論文, 155 pages, 2026年2月.

profile-image

北村研究室の学内・対外発表の発表スライドをまとめています.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

AS2特別研究Ⅱ発表審査会 2026/02/04 8:50 ~ 12:00 音量比特徴量の重み付きクラスタリングに 基づくドラムセット収録時の被り音抑圧 鈴木慶 (北村研究室)

2.

2 研究背景 • ドラムのレコーディング環境 – ドラム1つに対して複数本のマイクを各音源に近接 – 各マイクが近接させた音源(目的音源)のみの録音が目的 ハイハット スネアドラム キックドラム ハイハットの演奏音 スネアドラムの演奏音 オーディオミキサー キックドラムの演奏音

3.

3 研究背景 • ドラムのレコーディング環境 – 各音源に適切な処理を行いそれらをミキシングする ハイハットの演奏音 ハイハット用 の処理 ハイハットの演奏音 スネアドラム用 の処理 スネアドラムの演奏音 キックドラムの演奏音 スネアドラムの演奏音 キックドラム用 の処理 キックドラムの演奏音 オーディオミキサー + 最適化された 演奏音を合成 ドラムセットの演奏音

4.

4 研究背景 • 被り音(クロストーク) – マイクをどれだけ近接させても目的音以外の音(被り音)が混入 – 各音源の音質調整が難しくなり,演奏音質の低下に繋がる 被り音 オーディオミキサー スネアドラム用 の処理 被り音 信号処理を用いて被り音を抑圧することが求められる

5.

5 研究背景 • ドラム音源分離(drum source separation: DSS) – マイク1本で観測したドラムセット全体の音を各音源に分離 ドラムセット全体の 演奏音 ハイハットの演奏音 DNN スネアドラムの演奏音 キックドラムの演奏音 – 深層ニューラルネットワーク (deep neural network: DNN)を利用 • 大規模なモノラル信号の データセットで学習[Mezza+, 2024] – この手法を被り音抑圧にも応用 できないか 学習 モノラル信号大規模データセット

6.

6 研究背景 • 被り音抑圧を目的としたDNN ハイハットの演奏音 スネアドラムの演奏音 ハイハットの演奏音 DNN キックドラムの演奏音 – DNNへの入力が多チャネルとなる – 大規模な多チャネル信号の データセットが必要 – 多チャネル信号のデータセットは 現状存在せず作成も困難 スネアドラムの演奏音 キックドラムの演奏音 学習 多チャネル信号 大規模データセット

7.

研究背景 • 大規模なデータセット作成が困難な理由 – 物理的なセットアップの困難さ • 20本程度のマイクロホンや大規模なオーディオミキサーが必要 – 正解ラベル収録のため,各音源の個別録音(別録り)が必要 • 1つの音源単独の演奏はドラマーにとって不自然で難しい 演奏のずれ・偏りが生じ,演奏音(データセット)の質が低下 • 小規模なデータセットであれば作成可能 – DNNの性能を担保できる量ではない 7

8.

8 研究背景 • データセットが大規模でなくてもDNNへ何かしらの 補助情報を与えることで性能が向上 : 被り音 そのままのデータ 多チャネル信号 データセット 学習データ 大まかに 被り音抑圧した信号 補助情報 大規模でなくても DNNの精度を担保 どのように被り音抑圧するのか (教師無し学習である必要) DNN

9.

9 研究背景 • 目的音と被り音の間には大きな音量比が存在 被り音 被り音 観測した 演奏音の音量 – 目的音源にマイクロホンを近づけているため, 目的音は大きく,被り音は小さく観測 キック ドラム スネア ドラム ハイ ハット キックドラムの場合 • 補助情報を生成するうえで大きな手掛かりとなる – 音量比を表す特徴量を生成し,被り音抑圧を行う

10.

10 研究背景 • 目的音と被り音の間には大きな音量比が存在 – 目的音源にマイクロホンを近づけているため, 目的音は大きく,被り音は小さく観測 被り音 観測した 演奏音の音量 被り音 キック ドラム スネア ドラム ハイ ハット スネアドラムの場合 • 補助情報を生成するうえで大きな手掛かりとなる – 音量比を表す特徴量を生成し,被り音抑圧を行う

11.

11 研究背景 • 目的音と被り音の間には大きな音量比が存在 – 目的音源にマイクロホンを近づけているため, 目的音は大きく,被り音は小さく観測 被り音 観測した 演奏音の音量 被り音 キック ドラム スネア ドラム ハイ ハット ハイハットの場合 • 補助情報を生成するうえで大きな手掛かりとなる – 音量比を表す特徴量を生成し,被り音抑圧を行う

12.

12 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理 観測信号(被り音あり) 被り音抑圧信号 音量比を用いた被り音抑圧 音量比特徴量 の生成 観測 スペクトログラム クラスタリング マスク生成 音量比特徴量 マスキング 処理 時間周波数マスク 被り音抑圧 スペクトログラム

13.

13 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理 観測信号(被り音あり) 被り音抑圧信号 音量比を用いた被り音抑圧 音量比特徴量 の生成 観測 スペクトログラム クラスタリング マスク生成 音量比特徴量 マスキング 処理 時間周波数マスク 被り音抑圧 スペクトログラム

14.

14 提案手法 • 観測信号とスペクトログラムの変換 – 短時間フーリエ変換(short-time Fourier transform: STFT) 時間周波数領域 マイク の 観測信号 ・・・ 時間 窓関数 シフト長 周波数 時間領域 離散 フーリエ 変換 複素スペクトログラム 複素数要素を持つ行列 振幅スペクトログラム フーリエ変換長(窓長) 非負( 以上)の実数要素の行列

15.

15 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理 観測信号(被り音あり) 被り音抑圧信号 音量比を用いた被り音抑圧 音量比特徴量 の生成 観測 スペクトログラム クラスタリング マスク生成 音量比特徴量 マスキング 処理 時間周波数マスク 被り音抑圧 スペクトログラム

16.

16 提案手法 • 特徴量への変換 観測スペクトログラム – 音量比 – 振幅の ノルム : 観測 スペクトログラム : 時間 : 周波数 : マイク • 音量比 を特徴量とし, 振幅の ノルム を特徴量に対する重みとする, 重み付き特徴量が計算される

17.

提案手法 17 • 特徴量空間への表現 – 音量比 の制約 – 上記の制約を持つデータは 次元標準単体上に表現 – 音量比の大きいデータは 標準単体上の頂点付近に位置 キックドラムの 音量比 スネアドラム の音量比 ハイハットの 音量比 – 標準単体の各頂点はそれぞれの音源に対応 の場合の例

18.

提案手法 18 • 特徴量空間への表現 – 音量比 の制約 – 上記の制約を持つデータは 次元標準単体上に表現 – 音量比の大きいデータは 標準単体上の頂点付近に位置 キックドラムの 音量比 スネアドラム の音量比 ハイハットの 音量比 – 標準単体の各頂点はそれぞれの音源に対応 の場合の例

19.

提案手法 19 • 特徴量空間への表現 – 音量比 の制約 – 上記の制約を持つデータは 次元標準単体上に表現 – 音量比の大きいデータは 標準単体上の頂点付近に位置 キックドラムの 音量比 スネアドラム の音量比 ハイハットの 音量比 – 標準単体の各頂点はそれぞれの音源に対応 の場合の例

20.

提案手法 • 生成される特徴量空間 – 次元標準単体上に重みが付与されて表現 の場合の例 – 各音源に対応したクラスタが見られる • クラスタを分離することは被り音抑圧につながる 20

21.

21 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理 観測信号(被り音あり) 被り音抑圧信号 音量比を用いた被り音抑圧 音量比特徴量 の生成 観測 スペクトログラム クラスタリング マスク生成 音量比特徴量 マスキング 処理 時間周波数マスク 被り音抑圧 スペクトログラム

22.

22 提案手法 • クラスタリングにあたって ハイハットの クラスタ の場合の例 = + スネアドラムの クラスタ – データ点をそのまま分離することは難しい – ディリクレ分布でモデル化→クラスタリング • 音量比特徴量の制約を持つデータが従う分布 + キックドラムの クラスタ

23.

23 提案手法 • ディリクレ分布 – 確率密度関数 : ガンマ関数 – 形状パラメータ によってディリクレ分布の形状が異なる の場合のディリクレ分布の例

24.

24 提案手法 • 音量比特徴量を混合ディリクレ分布 (Dirichlet mixture model: DMM)と仮定 – 確率密度関数 この2つのパラメータを推定することで ディリクレ分布を分離することができる : 混合係数 : クラスタ – DMMから各ディリクレ分布を分離するために DMMにおけるEMアルゴリズム[A. Narayanan, 1992]を用いる • 期待値ステップ(expectation-step: E-step)及び 最大化ステップ(maximization-step: M-step)を繰り返すことで DMMからディリクレ分布を分離

25.

25 提案手法 • DMMにおけるEMアルゴリズム – E-step • 音量比特徴量 がクラスタ に属する確率(事後確率) の更新 – M-step • 混合係数 の更新 • 形状パラメータ の更新 – 解析的に解けないため,次式を目的関数とするニュートンラフソン法で近似

26.

26 提案手法 • DMMにおけるEMアルゴリズム – E-step及びM-stepを, 事後確率 の変化量が閾値を下回るまで繰り返す – 推定された 及び によってディリクレ分布が分離される ハイハットのクラスタ クラスタリング スネアドラムのクラスタ – 推定されたディリクレ分布から 時間周波数マスクを生成する キックドラムのクラスタ

27.

27 提案手法 • 時間周波数マスク の生成 – 正規化された各クラスタの確率密度が時間周波数マスクとなる – マスクが目的音を過剰に抑圧してしまうことを防ぐため, でマスクを緩和 時間周波数マスク で スケーリング マスク生成

28.

28 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理 観測信号(被り音あり) 被り音抑圧信号 音量比を用いた被り音抑圧 音量比特徴量 の生成 観測 スペクトログラム クラスタリング マスク生成 音量比特徴量 マスキング 処理 時間周波数マスク 被り音抑圧 スペクトログラム

29.

29 提案手法 • 時間周波数マスクによる被り音抑圧 – 時間周波数マスクと観測スペクトログラムの要素積で実現 – マスキングされたスペクトログラムは被り音が抑圧されている キックドラム近接マイク キックドラム時間周波数マスク キックドラム被り音抑圧信号 = スネアドラム近接マイク スネアドラム時間周波数マスク スネアドラム被り音抑圧信号 = ハイハット近接マイク ハイハット被り音抑圧信号 ハイハット時間周波数マスク = は行列の要素積を行う演算子

30.

30 提案手法 • 以下の手順で被り音を抑圧 1. 音量比を表現する特徴量空間の生成 2. クラスタリングとマスク生成 3. マスキング処理 観測信号(被り音あり) 被り音抑圧信号 音量比を用いた被り音抑圧 音量比特徴量 の生成 観測 スペクトログラム クラスタリング マスク生成 音量比特徴量 マスキング 処理 時間周波数マスク 被り音抑圧 スペクトログラム

31.

実験条件 31 • 3つの音源による実演奏音から 特徴量空間の生成と被り音抑圧を実施 キックドラム スネアドラム ハイハット • 以下の結果を確認 – 音量比特徴量 – クラスタリングにより推定されたディリクレ分布 – 被り音抑圧性能( を1~0.1まで0.02ずつ等分割して比較) • 評価指標:信号対干渉音比(source-to-interference ratio: SIR)改善量 →目的音に対する被り音の干渉度合いを表す

32.

32 実験結果 • 生成された音量比特徴量 – 各音源間で明確なクラスタが観測 – キックドラム: 他クラスから孤立して分布 スネアドラム,ハイハット: 互いに近接した領域にクラスタを形成 スネアドラム ハイハット キックドラム

33.

33 実験結果 • クラスタリング結果 音量比特徴量 – 各クラスタが適切に分離 – 分散が音源ごとに異なる キックドラムのクラスタ スネアドラムのクラスタ ハイハットのクラスタ

34.

34 実験結果 • 被り音抑圧性能 SIR改善量 [dB] – 被り音抑圧の性能は音源毎に異なる – を適切に決めることで抑圧性能を最大化できる – DNNへの補助情報としては十分な精度 緩和されたマスク 強烈なマスク

35.

まとめ 35 • 研究背景 – 音量比特徴量を用いた教師無し重み付きクラスタリングによる ドラム被り音抑圧手法を提案 • 研究結果 – 音源ごとに抑圧精度は異なるが大まかな被り音抑圧が可能 – 被り音抑圧におけるDNNの学習において, 有効な補助入力となることが期待 • 発表業績 – 第27回 日本音響学会 関西支部 若手研究者交流研究発表会 – 日本音響学会 第154回(2025年秋季)研究発表会