音源分離技術の基礎と応用~音源分離チョットワカルになるための手引き~

55.5K Views

June 24, 23

スライド概要

北村大地,中村友彦,"音源分離技術の基礎と応用~音源分離チョットワカルになるための手引き~," 音学シンポジウム2023,招待講演,2023年6月24日.

profile-image

http://d-kitamura.net/links_en.html

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

第137回音楽情報科学・第147回音声言語情報処理合同研究発表会(音学シンポジウム2023) 2023年6月23日(金)・24日(土) 09:30 - 10:40 招待講演4 (35)[招待講演] 音源分離技術の基礎と応用 ~音源分離チョットワカルになるための手引き~ 北村大地(香川高等専門学校) 中村友彦(産業技術総合研究所)

2.

自己紹介:北村 大地 • 経歴 – 2017/3:総合研究大学院大学 複合科学研究科 博士(情報学) – 2017/4—2018/3:東京大学 猿渡・小山研究室 特任助教 – 2018/3—Present:香川高等専門学校 助教→講師 • 専門:音響信号処理,機械学習 • :@UDN48_udon 2

3.

自己紹介:中村 友彦 • 経歴 – 2016/3:東京大学 大学院情報理工学系研究科 博士(情報理工学) – 2016/4—2019/8:セコム株式会社 IS研究所 – 2019/9—2023/3:東京大学 猿渡・小山研究室 特任助教 – 2023/4—Present:産業技術総合研究所 人工知能研究センター 主任研究員 • 専門:音響信号処理,音楽情報処理 • :@TomohikoNakamu2 3

4.

4 チョットワカルって何 • ダニング=クルーガー効果 [J. Kruger+, 2000] [元ネタ] [元ネタの解説] – 専門性や経験の浅い人が一度自信に溢れる,という心理仮説 • めちゃくちゃ専門的で経験豊富な人が自身を過少評価することも 高 「ハイ完全に理解したわコレ」 (慢心・錯覚) 自信 (自己認識) 理解度 「チョットワカル」 (謙遜) 低 「イヤナンモワカランガ」 (失意) 時間 (知識量・努力等) – 今日は,慢心・錯覚していただくのが目標です • 最終的には「チョットワカル」になる,そのための手引きとなれば幸いです

5.

5 今日のお話 • 音源分離について(北村) – 何の役に立つの? – どんな問題を解くの? – 解くための手がかりには何があるの? 「空間」と「音源」 の2つの手がかり • 「空間」の手がかりをメインとして活用する方法(北村) – 「空間」の手がかりのみからできること • ビームフォーミング – 「音源」の手がかりもちょっと使ってみる • ざっくりとした統計的情報,少し緻密な構造的情報,そしてDNNへ・・・ • 「音源」の手がかりのみから頑張る方法(中村先生) – 「音源」の手がかりをデータから学習 – ここ最近のレッドオーシャン研究のトレンド • 「完全に理解した」(皆さん)

6.

6 今日のお話 • 音源分離について(北村) – 何の役に立つの? – どんな問題を解くの? – 解くための手がかりには何があるの? 「空間」と「音源」 の2つの手がかり • 「空間」の手がかりをメインとして活用する方法(北村) – 「空間」の手がかりのみからできること • ビームフォーミング – 「音源」の手がかりもちょっと使ってみる • ざっくりとした統計的情報,少し緻密な構造的情報,そしてDNNへ・・・ • 「音源」の手がかりのみから頑張る方法(中村先生) – 「音源」の手がかりをデータから学習 – ここ最近のレッドオーシャン研究のトレンド • 「完全に理解した」(皆さん)

7.

音源分離とは? • ざっくりとしたイメージ 分離! 混ざったもの (観測) 混ざる前のものたち (推定対象) • 「混ざった音」から「混ざる前の音」を推定する技術 分離! 混ざったもの (観測) 混ざる前の音たち (推定対象) 7

8.

8 音源分離とは? • 音源分離(audio source separation) – 音声,ボーカル,楽器音,雑音,複数話者等を「分離」する – 人間の持つ音を聞き分ける能力を機械で実現:機械の耳 観測信号 音源信号 • 類似の技術 カクテルパーティ効果 – 雑音抑圧・雑音除去:背景雑音の除去が目的 – ○○強調・○○抽出:「特定の音源」と「それ以外」に分離 • 音声強調(speech enhancement),音声抽出(speech extraction)等 – 信号源分離:音響信号に限定しない • 脳波,生体信号,電波,画像等を対象とし「観測」から「信号源」を推定

9.

音源分離は何の役に立つの? • 雑音抑圧(音声強調) – 雑音混じりの観測信号から,雑音を除去(目的の音声を強調) 観測信号 雑音抑圧! 推定信号 – 主な用途 • 補聴器 – 明瞭で聞き取りやすい音声に変換 • 音声認識 – カーナビやスマートスピーカ等の音声入力機器 • ロボット等の音環境認識 – ドローン等では自分自身の駆動雑音が混入 9

10.

音源分離は何の役に立つの? 10 • 話者毎の音声分離 – 会議の議事録自動作成 • 話者毎の発話内容を文字起こしする必要あり – 現地会場+遠隔のハイブリッド会議 • 現地会場の複数人の発話をそれぞれ強調 してオンラインに乗せる必要あり • 例:SHUREの「ボイスリフト+拡声システム」 シーリングマイクアレイ (たくさんのマイクを並べた機器) 特定の話者のハンズフリー音声を抽出 話者の移動にも追従 ネットワークスピーカ (部屋の様々な位置に配置されたスピーカ) 引用元:https://www.shure.com/ja-JP/conferencing-meetings/applications/voice-lift-and-sound-reinforcement

11.

音源分離は何の役に立つの? • 音楽演奏の音源分離 – 自動採譜 各楽器に特化した 採譜を適用 分離! マージ 音楽CD 音源毎の信号 音源毎の楽譜 – ライブ音楽演奏のリミックス(再編集) • ライブ音楽演奏は一期一会 – その場で全ての音源が混合され芸術を成す – 演奏者さえも「自分だけの音」を聞いたことが無い • 音源分離ができればカラオケや音源毎の再編集 等が可能となる – 音楽鑑賞だけではなく,楽器演奏の教育(技術継承)等にも応用可能 11

12.

12 音源分離は何の役に立つの? • あらゆる音響機器(音響信号処理)のフロントエンドに – どんなマイクも雑音は必ず混入 – 多くの場合,雑音以外の不要な音も混入 観測信号 観測システム (到来する音波) (通常はマイク) (理想的には) まず音源分離 フロントエンド処理 アプリケーション 音源分離器 様々な処理 出力 マイク記号 狙った音の録音も 音楽の収録も 超音波検査も 音声認識器も 音響非破壊検査も 無線音声通信も

13.

13 どんな問題を解くの?どう難しいの? • 音源分離の問題 – 「コーヒー牛乳」を 「コーヒー」と「牛乳」に分ける • 一体どうやって・・・? 分かる どちらも分からない (知りたい) • 「解ける問題」と「解けない問題」 – 解ける問題=良設定問題(順問題) • コーヒーと牛乳があれば混ぜて作れる • ①解が存在する • ②解が一意に定まる • ③条件の連続的な変化に対して解も連続的に変化する どちらも分かる 知りたい – 解けない問題=不良設定問題(逆問題) • コーヒー牛乳になる組み合わせ が何通りもある… • 上記①~③を1つ以上満たさない • 音源分離は基本的に不良設定問題 どちらも成り立ってしまう (どちらも解になってしまう)

14.

どんな問題を解くの?どう難しいの? • 音源分離は基本的に不良設定問題 – 観測信号を説明できる音源信号の組み合わせが無数に存在 + = + ・・・ + • 不良設定問題の解き方 「空間」と「音源」 の2つの手がかり – 情報が足りないのでそのままは解けない – 何らかの手がかり(≒モデル)を積極的に利用し解を限定する • 当然,手がかりが間違っていれば精度は落ちる 14

15.

15 解くための手がかりには何があるの? • 空間の手がかり:観測条件に由来する情報 – マイクの本数(=観測信号のチャネル数) 音源信号1 音源信号2 • モノラル?ステレオ?多チャネル? – マイクの配置 • マイク間の距離?マイクの配置関係? – 音源の配置 • マイクから見た各音源信号の方位や距離? マイク 本数 マイク 間隔 音源 方位 マイク 配置 いろいろな観測条件 • 音源の手がかり:音源信号の事前知識やデータ – 音源の種類 • 音声?調波楽器音?打楽器音?その他特殊な信号? – 音源信号の統計的性質 • 定常or非定常?音源信号間の依存関係?学習データ? – 音源信号の時間周波数構造 • スパースや低ランク等の時間周波数構造がある? 音源の種類とその性質

16.

解くための手がかりには何があるの? 16 • 空間の手がかり:観測条件に由来する情報 – 複数のマイクがあれば,録音環境の空間的な情報を観測可能 1本のマイクで録音した場合 2本のマイクで録音した場合 ※正確には壁の反響 や残響がある 観測信号 観測信号が1つしかないので,空間的な 手がかりはほとんど無い (とはいえ,残響感から部屋の広さや音源まで の距離がなんとなくわかるかもしれない) 音色等の音源の手がかりは観測できて いる ※正確には壁の反響 や残響がある 観測信号1 観測信号2 伝達系の違いによる相対的な情報 1. 「音量差(振幅差)」 2. 「到達時間差(位相差)」 の空間の手がかりを観測できている 音色等の音源の手がかりも観測できて いる

17.

解くための手がかりには何があるの? 17 • 音源の手がかり:音源信号の事前知識やデータ – 音源の種類に依存して,音色や時間変化に性質的違いがある • 時間×周波数で表されたスペクトログラムを手がかりとすることが多い 会話中の音声信号のスペクトログラム 会話音声 ギターとドラムのスペクトログラム ギター ドラム – 「混ざる前の音源信号はこんなスペクトログラムになるはず!」 という仮定(音源のモデル化) その仮定を満たす解を推定

18.

18 今日のお話 • 音源分離について(北村) – 何の役に立つの? – どんな問題を解くの? – 解くための手がかりには何があるの? 「空間」と「音源」 の2つの手がかり • 「空間」の手がかりをメインとして活用する方法(北村) – 「空間」の手がかりのみからできること • ビームフォーミング – 「音源」の手がかりもちょっと使ってみる • ざっくりとした統計的情報,少し緻密な構造的情報,そしてDNNへ・・・ • 「音源」の手がかりのみから頑張る方法(中村先生) – 「音源」の手がかりをデータから学習 – ここ最近のレッドオーシャン研究のトレンド • 「完全に理解した」(皆さん)

19.

19 観測信号のチャネル数について • マイクロホンアレイ(microphone array) – 複数のマイクを並べた同期録音デバイス • 用途に応じて直線状・円状・球状など,様々な形がある • チャネル数も様々 人の耳も マイクアレイ! – 最近のノートPCには2~4チャネルのマイクアレイが搭載されている マイク マイク マイク 引用元:https://www.rtri.or.jp/rd/maibarawt/open04.html 引用元: https://www.sifi.co.jp/product/micro phone-array/ 引用元: https://www.imperial.ac.uk/speechaudio-processing/projects/sphericalmicrophone-arrays/ – 同じA-D変換器に入力するため,完全な同期録音が可能 • 録音開始時刻・サンプリング周波数にズレは無い(とみなせる)

20.

20 ビームフォーミングについて • ビームフォーミング(beamforming: BF) – 固定ビームフォーマ ビームフォーマ (beamformer)とも • 空間的な物理モデルから「分離フィルタ」を構成 • 代表技術:遅延和ビームフォーマ,ヌルビームフォーマ – 適応ビームフォーマ • 何かの基準の最適化で観測信号に適切な空間分離フィルタを推定 • 代表技術:最尤ビームフォーマ,最小分散無歪みビームフォーマ等 (周波数ではなく) 空間に対する バンドパスフィルタ を構成 左の音源を 分離するビーム 空間分離フィルタ 右の音源を 分離するビーム

21.

固定ビームフォーマの空間的な物理モデル 21 • 音の到達時間差(time difference of arrival: TDOA) – 物理モデル(仮定):音速 が一定の平面波(音源が十分遠方) 伝搬してきた 平面波 伝搬距離差に基づく 到達時間差が生じる 0° 伝搬距離差 伝搬距離差 – 観測される信号 時間領域 周波数領域 ディラックのデルタ関数

22.

遅延和ビームフォーマによる音源分離 • 遅延和ビームフォーマ(delay-and-sum beamformer) 遅延フィルタ 遅延フィルタ 遅延フィルタ 適切な遅延により波形の位相が揃う – 方向から到来した音は位相が揃った状態で加算 強調 – 他方向から到来した音は位相が揃わず加算 抑圧 – 所望の遅延を与えるフィルタ設計 観測にかかるTDOAは ステアリング ベクトル (後述) このTDOAを 戻すフィルタ 22

23.

なぜ時間領域ではなく周波数領域で議論するか • 時間領域では「時刻ズレ」,周波数領域では「位相ズレ」 時間領域 周波数領域 • 時刻ズレはどの程度補償できる? – サンプリング周波数:16 kHz,音速:340 m/s,マイク間隔:20 cm, 音源の到来方向:30°の場合 到達時間差 (TDOA) 1サンプル の時間間隔 [s] [s] – TDOAはサンプリングの間隔よりも短いので補償できない • 周波数領域での位相ズレを補償するフィルタを設計する 23

24.

遅延和ビームフォーマの指向性例(0°強調) 24 赤色実線:0.5 kHz 青色破線:1 kHz 緑色破線:2 kHz マイク数11個,アレイサイズ1m,マイク間隔10cm マイク数21個,アレイサイズ2m,マイク間隔10cm 37.5cm マイク数5個,アレイサイズ1m,マイク間隔25cm 12.5cm マイク数5個,アレイサイズ1m,不規則アレイ

25.

ヌルビームフォーマによる音源分離 • ヌルビームフォーマ(null beamformer) 遅延フィルタ 遅延フィルタ 反転 位相をそろえて差し引くことで出力を零にする – 方向から到来した音は位相が揃った状態で減算 抑圧 – 他方向から到来した音は位相が揃わず減算 少し歪む • ヌルビームフォーマの利点 – マイク数 ならば 個の方位に死角(ヌル)を形成可能 • たった2個のマイクでも特定の方位の音源を(原理的には)消せる 25

26.

ヌルビームフォーマの指向性例(0°抑圧) 26 赤色実線:0.5 kHz 青色破線:1 kHz 緑色破線:2 kHz マイク数2個,アレイサイズ10cm,マイク間隔10cm マイク数2個,アレイサイズ20cm,マイク間隔20cm • 依然として空間エイリアシングの問題はある – 高周波帯域で分離したい方位のみにヌルを形成するためには マイク間隔を小さくする必要がある • 実用上の問題 – マイク感度の個体差により,深いヌルを形成することは困難 – 遅延和BFもヌルBFも残響の影響を考慮していない

27.

固定ビームフォーマから適応ビームフォーマへ 27 • 固定ビームフォーマまとめ – 利点 • 動作原理が単純でフィルタ設計も容易 – 欠点 • マイクアレイの形状や間隔と音源の方位が既知 • 空間的な物理モデルのみ利用し観測信号を使わないため,マイク個体 差や物理モデルの誤差に敏感 – 室内音場(残響,反射,回折,気温変化),マイクロホン配置の誤差,マイク ロホン設置機構の干渉(反射,回折),マイクロホン相互の特性誤差(指向 性,周波数特性,感度)等 • 観測信号に応じてフィルタ設計する適応ビームフォーマ へと発展 – 適応ビームフォーマは様々な手法が提案されている – 代表例:分散最小無歪みビームフォーマ

28.

MVDRビームフォーマによる音源分離 28 • 最小分散無歪みビームフォーマ(MVDRビームフォーマ) (minimum variance and distortionless response beamformer) – 分離したい音源の方位のフィルタゲインを1に制約(無歪み) – その他の方位のフィルタ出力のパワーを最小化 • 「分離したい音源の音量(パワー)はキープ」&「ビームフォーマの出力 の音量(パワー)を小さく」する空間分離フィルタを適応的に設計 抽出したい音源の方向は 抑圧しないよう制約 MVDRビームフォーマで求 まるフィルタの利得カーブ (雰囲気) 出力パワーを最小化 他音源の方向には自 動的にヌル(死角)を 向ける

29.

MVDRビームフォーマによる音源分離 29 • 適応ビームフォーマまとめ – 利点 • 物理モデルに加えて観測信号そのものも手がかり – 物理モデルの誤差の影響もある程度抑えられる – 観測信号を用いているので,残響の影響も(理想的には)考慮されている • 複数方位の無歪み化も容易 正面0°のみ無歪み -5°,0°,+5°無歪み 他の音源の方位 – 欠点 他の音源の方位 引用元:浅野太, “音のアレイ信号処理”, コロナ社 • 依然として,マイクアレイの形状や分離したい音源の方位が既知

30.

「空間」の手がかりのみからできることまとめ • 活用できた空間の手がかり – 空間物理モデル • マイクアレイの形状が既知でなければならない – マイクの配置やマイク間の距離 • 分離したい音源の方位が既知でなければならない – どの方位を無歪みとするのか,どの方位に死角(ヌルビーム)を打つのか – モデルの誤差はどうしても音源分離精度の悪化につながる • 空間の手がかりを100%信頼するのもリスクにつながる • もう少し信頼できる他の手がかりがあれば・・・ – 誤差を含む空間の手がかりの代わりになるかもしれない – 音源の手がかりで使えそうな仮定(=良く成り立つモデル)を 探求・援用していく方向に発展 30

31.

31 今日のお話 • 音源分離について(北村) – 何の役に立つの? – どんな問題を解くの? – 解くための手がかりには何があるの? 「空間」と「音源」 の2つの手がかり • 「空間」の手がかりをメインとして活用する方法(北村) – 「空間」の手がかりのみからできること • ビームフォーミング – 「音源」の手がかりもちょっと使ってみる • ざっくりとした統計的情報,少し緻密な構造的情報,そしてDNNへ・・・ • 「音源」の手がかりのみから頑張る方法(中村先生) – 「音源」の手がかりをデータから学習 – ここ最近のレッドオーシャン研究のトレンド • 「完全に理解した」(皆さん)

32.

ブラインド音源分離と独立成分分析 32 • ブラインド音源分離(blind source separation: BSS) – マイク位置や音源位置等の事前情報を用いずに混合系の逆系 (分離系)を推定 混合系 分離系 • 独立成分分析(independent component analysis:ICA) – BSSの根幹を成す統計数理アルゴリズム – ICAで仮定する音源の手がかり • 音源信号はガウス分布以外から生成される • 各音源信号は互いに独立 (ガウス分布=正規分布) – ICAを時間周波数領域で適用して分離フィルタを設計する • 実は適応型のヌルビームフォーマとほとんど等価

33.

歴史的な発展(関連の深い手法の一部のみ掲載しています,ご容赦下さい) 優決定条件 1994 劣決定条件 単一チャネル ICA スペクトル減算法 時間周波数マスク 等々 [Comon], [Bell and Sejnowski], [Cardoso], [Amari], … 1998 1999 周波数領域ICA [Smaragdis] パーミュテーション 解決法 [Saruwatari], [Murata], [Buchner], [Sawada], … 2006 ビームフォーミング スパースコーディング 時間周波数マスク 方位クラスタリング 等々 独立ベクトル分析(IVA) 補助関数IVA(AuxIVA) 時変分散IVA フルランク空間相関モデル (FCA) 独立深層学習行列分析(IDLMA) [Mogami] 2021 [Févotte] 多チャネルNMF [Kitamura] 2018 板倉齊藤NMF [Ono] 独立低ランク行列分析(ILRMA) 時間周波数マスキングBSS [Yatabe&Kitamura] [Lee] NMFモデルの拡張 NMFの統計的解釈 [Duong] [Ono] [Ozerov], [Sawada] 2016 非負値行列因子分解(NMF) [Virtanen], [Smaragdis], [Kameoka], [Ono], … [Hiroe], [Kim] 2009 2010 2011 2012 2013 33 ビーム [Nugraha] フォーミング +DNN Neural FCA [Bando] (Neural BF) FCA+DNN [Erdogan] [Wang] 深層ニューラルネットワーク (DNN)に基づく 教師あり・教師なし手法の 急速な発展

34.

34 音源の分布とは? 振幅 • 音声波形の分布 ガウス分布(正規分布) 0.5 時間サンプル 0.4 0.3 0.2 0.1 0 振幅値の出現回数 -5 -4 -3 -2 -1 0 1 2 3 4 5 0付近で急峻であり,裾が広 い分布 ガウス分布(正規分布)とは 全然違う,非ガウス分布 振幅

35.

35 音源の分布とは? 振幅 • ピアノ音波形の分布 ラプラス分布 時間サンプル 0.6 0.5 0.4 0.3 0.2 0.1 0 振幅値の出現回数 -5 -4 -3 -2 -1 0 1 2 3 4 5 やはりガウス分布より尖っ ていて裾が広い 振幅

36.

ICAの音源分離の原理 36 • ICAで用いられる手がかり(仮定) – 1. 混合前の各音源は互いに独立である(音源の手がかり) – 2. 混合前の各音源は非ガウスな分布に従う(音源の手がかり) – 3. 混合系は時不変であり逆系が存在する(空間の手がかり) 混ざることで音源間の 独立性は失われる と は元々互いに独立 が成立 (独立性の定義) 結合分布(同時分布) 推定信号間の独立性を 最大化すれば分離される と は独立に なっていない (同じ信号源が混ざって いるので波形も類似) 分離系 を通して出てくる と が 独立になっていれば音源分離され ているはず となるような を求めれば良い!

37.

ICAの音源分離の原理 • ICAの定式化 – 求めるべき分離系は次の最小化問題の解 と の距離 ただし, • 距離がゼロ( )になれば, と は独立 • 確率分布の距離はカルバック・ライブラ(KL)ダイバージェンス • この問題は解析的には解けない – 分離系 を初期化して勾配降下法 で最小化問題の(局所)解を得る ただし, は 勾配降下法による最適化 目的関数 によって決まる関数 37

38.

実際の音響信号のICAによるBSS • 実際の音の混合は残響による畳み込み混合 – のような「行列積」ではない – 「畳み込み混合」は時間周波数領域で「行列積」に変換可能 • 周波数領域ICA(frequency-domain ICA: FDICA) – 各周波数ビンの複素時系列信号に対して,独立なICAを適用 • 周波数毎に分離系 を推定 38

39.

FDICAの分離フィルタと適応BFの分離フィルタ 39 • FDICAで求まる分離行列 の各行(一つの音源を抽 出するための分離フィルタ)は適応BFとほとんど等価 FDICAの 空間分離 フィルタ TR = 0 ms TR = 300 ms TR = 0 ms TR = 300 ms 適応BFの 空間分離 フィルタ 引用元:S. Araki, “The fundamental limitation of frequency domain blind source separation for convolutive mixtures of speech”, IEEE T. SAP, vol. 11, no. 2, 2003.

40.

さらなる音源の手がかりの援用 • FDICAに「同一音源の時間共起性」 (グループスパース性)を仮定し導入 独立ベクトル分析 [Kim+, 2007], [Ono, 2011] (independent vector analysis: IVA) • FDICAに「同一音源の時間周波数の 低ランク性」を仮定し導入 独立低ランク行列分析 [Kitamura+, 2016] (independent low-rank matrix analysis: ILRMA) デモ:http://d-kitamura.net/demo-ILRMA.html • FDICAに「音源種毎の(学習済みの) 時間周波数推定器」を導入 独立深層学習行列分析 [Mogami+, 2018] (independent deeply learned matrix analysis: IDLMA) デモ:http://d-kitamura.net/demo-IDLMA.html 40

41.

さらなる音源の手がかりの援用 41 • FDICA+音源の手がかりのBSSの一般化 [Yatabe&Kitamura, 2018] – スパース性,グループスパース性,低ランク性 等の音源の手がかりを入替可能なBSS • 同一フレームワークで定式化されているため 音源の手がかりを入れ替えた際の最適化アルゴリズムの導出が不要 • 複数の音源の手がかりの組み合わせも手軽に実現可能 Mixture A 低ランク+スパース グループスパース+スパース Mixture B 低ランク+スパース 低ランク グループスパース+スパース グループ スパース 低ランク グループスパース

42.

42 さらなる音源の手がかりの援用 • 時間周波数マスキングに基づくBSS (time-frequency-masking-based BSS: TFMBSS) [Lopez&Ono, 2015], [Yatabe&Kitamura, 2019], [Yatabe&Kitamura, 2021] – FDICA+音源の手がかりをさらに一般化し,時間周波数マスキ ングの形でBSSと融合 STFT Time Time Time Time Frequency Frequency 周波数毎の 分離行列 Frequency Frequency 推定信号 Frequency Frequency 観測信号 時間周波数マスキング による音源強調 Time Time 推定信号の時間周波数構造が 「与えられた時間周波数マスキングの出力」を持つように分離行列を更新 – 既存の時間周波数マスキング手法(DNN含む)の援用も容易 に実現可能

43.

さらなる音源の手がかりの援用 43 • 調波・打撃音分離(HPSS)とBSSの融合[Oyabu, Kitamura&Yatabe, 2021] – 音源の手がかり:音源は横筋(調波音)と縦筋(打撃音)の2種 • 単一チャネルの音源分離で発展したHPSSのアルゴリズムを時間周波 数マスキングで表現しTFMBSSに導入

44.

さらなる音源の手がかりの援用 44 • 調波ベクトル分析(harmonic vector analysis: HVA) [Yatabe&Kitamura, 2021] – 音源の手がかり:音源は調波構造(縞模様)を持つ • 「調波構造を持つ」は「ケプストラム領域でスパース」に対応, そんな時間周波数マスキングをTFMBSSに導入 デモ:http://d-kitamura.net/demo-HVA.html

45.

45 さらなる音源の手がかりの援用 • スペクトログラム無矛盾BSS [Yatabe, 2020], [Kitamura&Yatabe, 2020] – 音源の手がかり:音源分離後のスペクトログラムは無矛盾 [Le Roux+, 2010] • スペクトログラムは冗長表現(時間波形よりも高次元) • 何らかの信号処理をすると「矛盾したスペクトログラム」になる – 「矛盾したスペクトログラム」を無理やり逆短時間フーリエ変換すると最も近 い時間波形に射影される 音源分離を間違えると スペクトログラムの 「矛盾度合」が増加 スペクトログラムが 矛盾しないように 最適化を誘導

46.

第1部のまとめ 46 • マイクが複数ある(多チャネルな)状況の音源分離 – 空間の手がかりを大いに活用 ビームフォーマやICAを基礎理論とする発展 – 物理モデルの誤差が性能を悪化(あまり信頼できない空間の手がかりもある) 音源の手がかりも積極的に取り入れ克服するように発展 過去の基礎理論を上手く生かした拡張手法が多い • 今後はどうなる多チャネル音源分離 – 単一チャネルでも強力なDNN音源分離モデルが次々と登場 • 万能で最強な単一チャネルDNN音源分離モデルが登場したら? – 多チャネルの利点を活かせるアルゴリズムが狙い目? • できるだけ線形な処理を担保し,非線形歪みを避けるアプローチ? • 少ない学習データ or 教師無し学習で十分な性能がでるアプローチ? • 第2部は音源の手がかりに焦点をあてたお話です

47.

第2部:モノラル音源分離 中村 友彦 産業技術総合研究所 人工知能研究センター 1

48.

いかに音源の手がかりを得るか? • 数理モデルベースアプローチ – 分離対象の性質を数理モデルとして陽に表現し,データをより良く説明するパラ メータを推定 – 「どんな性質を対象とするか?」が重要(e.g., 物理的,統計的な性質) • データとモデルの乖離が大きくなるほど,一般的に分離性能は低下 • 学習ベースアプローチ – 学習を通して,データから暗黙的に分離対象の性質を利用する方法を獲得 – 大量の学習データが用意できる場合には有用 • どの程度集めればよいかはケースバイケース – 最近は,深層ニューラルネットワーク(DNN)を用いるのが標準的 2023/6/23 音学シンポジウム2023 2

49.

モノラル音源分離は,音源のバリエーションとの戦い • (超大雑把な)ここ20年の研究の進み – 様々な音源を統一的な枠組みで扱えるように進展 音源の数理モデルを作り込む研究が多い. 2000sまでの知見も併用しつつ,打楽器音 に関してもより容易に扱えるように! 深層学習を使うことで,より 広範な音源を扱えるように!! 2000s 非負値行列因子分解 (NMF)の導入 2023/6/23 2010s 2020s 深層学習の導入 音学シンポジウム2023 3

50.

数理モデルベースアプローチ 2023/6/23 音学シンポジウム2023

51.

いかに音源の手がかりを得るか?(再掲) • 数理モデルベースアプローチ – 分離対象の性質を数理モデルとして陽に表現し,データをより良く説明するパラ メータを推定 – 「どんな性質を対象とするか?」が重要(e.g., 物理的,統計的な性質) • データとモデルの乖離が大きくなるほど,一般的に分離性能は低下 • 学習ベースアプローチ – 学習を通して,データから暗黙的に分離対象の性質を利用する方法を獲得 – 大量の学習データが用意できる場合には有用 • どの程度集めればよいかはケースバイケース – 最近は,深層ニューラルネットワーク(DNN)を用いるのが標準的 2023/6/23 音学シンポジウム2023 5

52.

数理モデルベースアプローチ: 非負値行列因子分解 2023/6/23 音学シンポジウム2023

53.

非負値行列の積としてのスペクトログラム表現 • 振幅/パワースペクトログラムは非負値行列とみなせる. アクティベーション: 音量,発音時刻・長に対応 Log-freq. スペクトルテンプレート: 音高,音色(の一部)に対応 各音源の振幅スペクトログラムを ランク1の非負値行列で表現 Time • 少数の限られた音源が繰り返し出現することに対応. ⇒ 音楽や音声の大域的な性質にマッチ 2022/3/16 7

54.

スペクトログラムの分解としての音源分離 • 観測スペクトログラムを非負値行列因子分解(NMF) [Lee+1999] で分解 ⇒ 各音源のスペクトルテンプレート,アクティベーションを求めること に相当 アクティベーション: 音量,発音時刻・長に対応 Log-freq. スペクトルテンプレート: 音高,音色(の一部)に対応 各音源の振幅スペクトログラムを ランク1の非負値行列で表現 Time 2022/3/16 8

55.

NMFの定式化 • 観測振幅スペクトログラム ラム の乖離度を最小化する問題 とモデルスペクトログ – 非負制約により基底同士の成分で値を引き去ることができない ⇒ できるだけ少数の基底が使われるように誘導 2022/3/16 9

56.

パラメータ更新アルゴリズム • 乖離度の代表例:一般化Kullback—Leiblerダイバージェンス • 補助関数法 [Ortega+1970, Hunter+2000] と呼ばれる最適化手法を用いる と,以下の更新則からなる反復アルゴリズムが導出可能 観測スペクトログラムとモデルスペクトログラムの比を基に, 2023/6/23 音学シンポジウム2023 を更新 10

57.

NMFの動き 2023/6/23 音学シンポジウム2023 11

58.

ドラム置換システム [Nakamura+2014] • リズムを変えずに他の楽曲からドラムの音色のみを置換 Target(置換元) HPSS Target & Ref. の 調波楽器音 ダイナミックレンジの転写 [亀岡+2006] Ref.(置換先) Target & Ref. の 打楽器音 ドラムの置換 (内部でNMFを利用) User TargetのスネアドラムをRef.の スネアドラムと置換! Synthesized 2023/6/23 ※RWCポピュラー音楽データベース [Goto+2004] を使用 音学シンポジウム2023 12

59.

学習ベースアプローチ 2023/6/23 音学シンポジウム2023

60.

いかに音源の手がかりを得るか?(再掲) • 数理モデルベースアプローチ – 分離対象の性質を数理モデルとして陽に表現し,データをより良く説明するパラ メータを推定 – 「どんな性質を対象とするか?」が重要(e.g., 物理的,統計的な性質) • データとモデルの乖離が大きくなるほど,一般的に分離性能は低下 • 学習ベースアプローチ – 学習を通して,データから暗黙的に分離対象の性質を利用する方法を獲得 – 大量の学習データが用意できる場合には有用 • どの程度集めればよいかはケースバイケース – 最近は,深層ニューラルネットワーク(DNN)を用いるのが標準的 2023/6/23 音学シンポジウム2023 14

61.

DNNを用いた音源分離手法 • 典型的方法:観測信号から各音源信号への回帰関数をDNNで表現 – 学習時:学習データ(観測信号と各音源信号のペア)を用いて,DNNのパラメー タを決定 – テスト時:学習したDNNに観測信号を入力し,出力として推定音源信号を得る. 音源信号1 観測音響信号 DNN 音源信号2 • 様々な音源(e.g., 音楽,音声,環境音)の分離において,デファクト スタンダード 2023/6/23 音学シンポジウム2023 15

62.

DNNを用いた音源分離の入出力による分類 • スペクトログラム入力型 – スペクトログラムを入力として,時間周波数マスクを推定 観測振幅スペクトログラム 推定音源信号 DNN 観測音響信号 STFT 逆STFT 入力複素スペクトログラム • 波形入力型 – 混合音の時間波形をDNNに入力し,直接分離音の時間波形を出力 推定音源信号 観測音響信号 DNN • ハイブリッド型:両アプローチを統合 2023/6/23 音学シンポジウム2023 16

63.

DNNを用いた音源分離の進展:概略 • スペクトログラム入力型,波形入力型,ハイブリッド型の順に登場 [Hershey+2016] [Luo+2017] [Luo+2018] [Stoller+2018] [Lluís+2018] 2017 [Hennequi+2020] [Choi+2021] [Sawata+2020] [Takahashi+2021] [Luo+2022] [Ditter+2020] [Nakamura+2021] [Takeuchi+2020] [Koizumi+2021] [Samuel +2020] [Zeghidour+2021] [Kavalerov+2019] [Ochiai+2020] [Tzinis+2021] [Saito+2022] [Chen+2020] [Kim+2021] [Rouard+2023] [Défossez2019] [Luo+2020] [Défossez2021] [Stöter+2019] 2018 2019 2020 波形入力型の登場 2021 2022 ハイブリッド型の登場 TasNetが爆発的に普及 このあたりからモノラル音源分離 の研究はDNN一色に. 性能追及よりも,新たなタスク・方法論の開拓の研究が増加 2023/6/23 音学シンポジウム2023 ※上に記載しているものはほんの一部 17

64.

学習ベースアプローチ: スペクトログラム入力型 2023/6/23 音学シンポジウム2023

65.

スペクトログラム入力型:概要 • 振幅/パワースペクトログラムから,DNNで時間周波数マスクを推定 – 基本構造は,DNN以前の多くの音源分離手法と同一 – 短時間Fourier変換(STFT)が主流だが,連続ウェーブレット変換,可変Q変換や メルスペクトログラムを用いる場合もある. 観測振幅スペクトログラム 音源 の推定音源信号 DNN 観測音響信号 STFT 逆STFT 入力複素スペクトログラム 音源 の推定複素スペクトログラム 2023/6/23 音学シンポジウム2023 19

66.

スペクトログラム入力型:ロス関数 • 正解値と推定値間のスペクトログラム領域での – がよく用いられる. ロス 正解信号の振幅スペクトログラム –位相を考慮したロスも提案されている [Erdogan+2015, LeRoux+2019] • 正解値と推定値間の時間波形の ロス – 推定スペクトログラムを逆時間周波数変換で時間波形に変換 – がよく用いられる. 正解信号の時間波形 • c.f., 様々なロス関数の比較や効果の検証 [Wang+2021, Guso+2022] 2023/6/23 音学シンポジウム2023 20

67.

DNNを用いた音源分離の進展:概略(再掲) • スペクトログラム入力型,波形入力型,ハイブリッド型の順に登場 [Hershey+2016] [Luo+2017] [Luo+2018] [Stoller+2018] [Lluís+2018] 2017 [Hennequi+2020] [Choi+2021] [Sawata+2020] [Takahashi+2021] [Luo+2022] [Ditter+2020] [Nakamura+2021] [Takeuchi+2020] [Koizumi+2021] [Samuel +2020] [Zeghidour+2021] [Kavalerov+2019] [Ochiai+2020] [Tzinis+2021] [Saito+2022] [Chen+2020] [Kim+2021] [Rouard+2023] [Défossez2019] [Luo+2020] [Défossez2021] [Stöter+2019] 2018 2019 2020 波形入力型の登場 2021 2022 ハイブリッド型の登場 TasNetが爆発的に普及 このあたりからモノラル音源分離 の研究はDNN一色に. 性能追及よりも,新たなタスク・方法論の開拓の研究が増加 2023/6/23 音学シンポジウム2023 ※上に記載しているものはほんの一部 21

68.

Deep Clustering [Hershey+2016] • 時間周波数ビン毎の埋め込み表現を用いたスペク トログラム入力型DNN – 時間周波数ビン毎に, 次元の埋め込みベクトルを出力 – 埋め込みベクトルは,cos距離に関して同一音源間で小さく, 異なる音源間で大きくなるように学習 各時間周波数ビンでの正解one-hotラベル: パワーが優勢な音源のみ1で他は0 – 推論時に埋め込みベクトルをクラスタリングすることで,音源 毎に分離 2023/6/23 図はhttps://source-separation.github.io/tutorial/approaches/deep/architectures.htmlより引用 音学シンポジウム2023 22

69.

Chimera Network [Luo+2017] • Deep Clusteringをベースに,マスク推定部分も同時に学習 – ロスには と の重み付け和を使用 – Deep Clustering,マスク推定モデル単体 よりも,歌声分離タスクで高性能 • 推論時はマスク推定部の結果を 使ったほうが高性能 – Deep Clustering部分の分離結果に関して 同時学習による性能向上はかなり低い – が正則化のように機能することを示唆 2023/6/23 図はhttps://source-separation.github.io/tutorial/approaches/deep/architectures.htmlより引用 音学シンポジウム2023 23

70.

Open-Unmix [Stöter+2019] • Publicly availableなスペクトログラム入力型モデル – ネットワークはFC層とBidirectional LSTMで構成し,音源毎に学習・分離 – Github上でコード,学習済みモデル(楽音分離・音声強調)が公開 – 異なる音源に対するモデルの特徴量を中間層で混合し,さらに性能向上 [Sawata+2021] 2023/6/23 音学シンポジウム2023 24

71.

Spleeter [Hennequin+2020] • U-Net構造 [Ronneberger+2015] をもつス ペクトログラム入力型モデル – U-Netを使ったスペクトログラム入力型歌 声分離 [Jansson+2017] を楽音分離へ拡張 – DTM用ソフトウェア製品での採用実績有り – Github上でコード,学習済みモデル共に 公開 – vocals, drums, bass, piano, otherの5音 源分離が可能なモデルも配布 図は [Jansson+2017] より引用 2023/6/23 音学シンポジウム2023 25

72.

Band-split RNN [Luo+2022] • 周波数帯域を複数に分割し,それぞれ処理した後マージ 2023/6/23 音学シンポジウム2023 26

73.

学習ベースアプローチ: 波形入力型 2023/6/23 音学シンポジウム2023

74.

波形入力型:概要 • 観測音響信号を直接DNNに入力し各音源信号を直接出力 観測音響信号 DNN 音源 の推定音源信号 • ネットワーク構造は大別して2種類 – TasNet系統:時間周波数変換を模倣した層を用いて,end-to-endで学習 – Wave-U-Net系統:時間波形領域でU-Net型のネットワークを利用 2023/6/23 音学シンポジウム2023 28

75.

波形入力型:ロス関数(1/2) • 正解値と推定値間の時間波形の – ロス がよく用いられる. 正解信号の時間波形 • マルチスケールスペクトログラムロス [Yamamoto+2020] – 複数( 種類)の時間周波数解像度のスペクトログラムを利用 – 波形領域のロスと併用可能 [Defossez+2020] 𝑖番目の時間周波数解像度の 音源𝑘の正解信号のスペクトログラム 2023/6/23 音学シンポジウム2023 29

76.

波形入力型:ロス関数(2/2) • Scale-invariant source-to-noise ratio(SI-SNR)ロス [LeRoux+2019] – SI-SNR:音源分離の標準的な評価指標の1つ – スケール非依存のため,分離音の音量が正解値と一致する保証はない. 2023/6/23 音学シンポジウム2023 30

77.

DNNを用いた音源分離の進展:概略(再掲) • スペクトログラム入力型,波形入力型,ハイブリッド型の順に登場 [Hershey+2016] [Luo+2017] 2017 [Hennequi+2020] [Choi+2021] [Sawata+2020] [Takahashi+2021] [Luo+2022] [Ditter+2020] [Nakamura+2021] [Takeuchi+2020] [Koizumi+2021] [Luo+2018] [Samuel +2020] [Zeghidour+2021] [Tzinis+2021] [Saito+2022] [Stoller+2018] [Kavalerov+2019] [Ochiai+2020] [Chen+2020] [Kim+2021] [Rouard+2023] [Lluís+2018] [Défossez2019] [Luo+2020] [Défossez2021] [Stöter+2019] 2018 2019 2020 波形入力型の登場 2021 2022 ハイブリッド型の登場 TasNetが爆発的に普及 このあたりからモノラル音源分離 の研究はDNN一色に. 性能追及よりも,新たなタスク・方法論の開拓の研究が増加 2023/6/23 音学シンポジウム2023 ※上に記載しているものはほんの一部 31

78.

TasNet Family • スペクトログラム入力型を模倣した波形入力型ネットワーク – STFT,逆STFTを畳み込み層を使ったエンコーダ,デコーダにそれぞれ置換 ⇒ end-to-endで学習可能 分離音 マスク推定部 混合音 エンコーダ デコーダ • TasNetをベースに様々なモデルが提案 – マスク推定部を変更 [Kavalerov+2019, Samuel+2020, Luo+2020, Ochiai+2020, Chen+2020, Zeghidour+2021, Tzinis+2021, Koizumi+2021, etc.] – エンコーダ・デコーダ部分を変更 2023/6/23 [Takeuchi+2020, Ditter+2020, Saito+2021] 音学シンポジウム2023 32

79.

Conv-TasNet [Luo+2018] • スペクトログラム入力型を模倣した波形入力型モデル – 様々な音源分離タスクのベースラインとしてよく利用される. – 時間周波数マスクを推定するDNNでは,dilated畳み込み層を使用 2023/6/23 音学シンポジウム2023 33

80.

Wave-U-Net [Stoller+2018] Source estimates • U-Net構造を用いた波形入力型モデル – エンコーダ:間引き(Decimation)により,特徴量 を繰り返しダウンサンプリング(DS) – デコーダ:線形補間により,特徴量を繰り返しアッ プサンプリング(US) – 時間波形領域での𝐿2 ロスを用いて学習 Conv1D Mixture audio Concat Conv1D Conv1D Concat Decimation DS block 1 US block 2 ・・・ – 指数的に畳み込み層の受容野を拡大 DS block 2 ・・・ • U-Net構造により長期的の時間依存性を 捕捉 Linear upsampling (US) US block 1 DS block 𝐿 US block 𝐿 Conv1D 2023/6/23 𝐿階層のWave-U-Net 音学シンポジウム2023 34

81.

多重解像度深層分析(MRDLA) • 信号処理の観点から,分離性能低下を招く Wave-U-NetのDS層の問題を発見 – 特徴量ドメインでエリアシングが発生 – ダウンサンプリングで情報が欠落しうる [Nakamura+2021] Source estimates Conv1D Mixture audio Concat Conv1D Conv1D Concat • 離散ウェーブレット変換を用いたDS層 (DWT層)を提案し,これらの問題を解決 DS block 2 US block 2 ・・・ 2023/6/23 DS block 1 Inverse DWT layer US block 1 ・・・ DWT DWT layer DS block 𝐿 US block 𝐿 Conv1D 音学シンポジウム2023 𝐿階層のMRDLA 35

82.

Demucs [Defossez+2019] • Wave-U-Netをベースに,スペクトログラ ム入力型の特徴を導入 – 畳み込み層のあとに,Gated linear unit (GLU)を追加 ⇒ マスキング構造に対応 – ボトルネック層にLSTMも追加 • 性能は高いものの,経験的には学習が 不安定 2023/6/23 音学シンポジウム2023 36

83.

DNNを用いた音源分離の進展:概略(再掲) • スペクトログラム入力型,波形入力型,ハイブリッド型の順に登場 [Hershey+2016] [Luo+2017] [Luo+2018] [Stoller+2018] [Lluís+2018] 2017 [Hennequi+2020] [Sawata+2020] [Ditter+2020] [Takeuchi+2020] [Samuel +2020] [Kavalerov+2019] [Ochiai+2020] [Chen+2020] [Défossez2019] [Luo+2020] [Stöter+2019] 2018 2019 2020 波形入力型の登場 [Choi+2021] [Takahashi+2021] [Luo+2022] [Nakamura+2021] [Koizumi+2021] [Zeghidour+2021] [Tzinis+2021] [Saito+2022] [Kim+2021] [Rouard+2023] [Défossez2021] 2021 2022 ハイブリッド型の登場 TasNetが爆発的に普及 このあたりからモノラル音源分離 の研究はDNN一色に. 性能追及よりも,新たなタスク・方法論の開拓の研究が増加 2023/6/23 音学シンポジウム2023 ※上に記載しているものはほんの一部 37

84.

Hybrid Demucs [Defossez2021] • 入力として,STFTと信号波形どちら も利用 – ボトルネック部分で,波形とSTFTから得ら れた特徴量を結合 – スペクトログラム・波形入力型両方の問題 点を低減 • スペクトログラム入力型:高周波帯域の欠 損が多い • 波形入力型:高周波ノイズが生じやすい • ボトルネック部にTransformerを導入 し,さらに性能向上 [Rouard+2023] 2023/6/23 音学シンポジウム2023 38

85.

最近の動向 2023/6/23 音学シンポジウム2023

86.

最近の動向 • 分析再合成アプローチの登場 – 音響・音声合成技術の援用 • 異種音源から同種音源の分離へ – 同種楽器(e.g., 歌声+歌声)の分離 • 新たな「性能」の模索 – 学習していない標本化周波数でも動作する音源分離 2023/6/23 音学シンポジウム2023 40

87.

分析再合成アプローチの登場 • 背景:音響・音声合成技術の発展 – 常に完全な分離を行うことは非常に困難 – 一方,近年の音響・音声合成手法の品質は飛躍的に向上 ⇒ 合成技術を音源分離に援用できるかも? • 方策:分離問題を「混合音からの合成パラメータ推定問題」と解釈 – 混合音から合成パラメータを推定し,推定した合成パラメータから目的音を合成 – 原理的に,他の音源の成分が出力に入りにくい(入らない) • 様々なDNNベース生成手法を利用可能 – e.g., GAN [Narayanaswamy+2020],正規化フロー [Zhu+2022],differentiable digital signal processing (DDSP) [Kawamura+2022],拡散モデル [Serra+2022] 2023/6/23 音学シンポジウム2023 41

88.

DDSPを用いた混合楽器音の分析・合成 [Kawamura+2022] • 混合音から音源の基本周波数, 音色パラメータ,ラウドネスを推定 – 事前学習したDDSP autoencoder [Engel+2020] の一部を楽器音合成器として利用 Source synthesizer Synth. params. of source 1 Decoder Filtered Noise + Filtered Noise + … Decoder Harmonic Audio Reverb デモページ:https://sarulab-audio.github.io/DDSP_Mixture_Model/ 2023/6/23 Synthesized mixture signal Reverb … … Synth. params. of source 𝑁 Harmonic Audio 音学シンポジウム2023 Minimize Observed mixture signal 42

89.

最近の動向(再掲) • 分析再合成アプローチの登場 – 音響・音声合成技術の援用 • 異種音源から同種音源の分離へ – 同種楽器(e.g., 歌声+歌声)の分離 • 新たな「性能」の模索 – 学習していない標本化周波数でも動作する音源分離 2023/6/23 音学シンポジウム2023 43

90.

重唱コーパスの整備 • 背景:同種楽器の分離は未だ困難(データセットも少ない) – 異種楽器の分離は,ここ数年で実用に向け大きく進展 – 進展の一部はデータセット(e.g., MUSDB18 [Rafii+2017])の整備によるもの • jaCappellaコーパス:日本語アカペラ重唱コーパス [Nakamura+2023] – ソーシャルメディアサービス(e.g., TikTok,YouTube)の重唱スタイルを模倣 – 著作権処理済み35曲の譜面,各パート歌唱録音 ポプラ: – 6声(リードボーカル,ボーカルパーカッション含む) (ジャズ風) – 様々なジャンルを模倣した7つのサブセット – 無償で研究利用可能 十五夜お月さん: (演歌風) • c.f., Medleyvox [Jeon+2023] 2023/6/23 Seminar at Univ. Auckalnd 44

91.

最近の動向(再掲) • 分析再合成アプローチの登場 – 音響・音声合成技術の援用 • 異種音源から同種音源の分離へ – 同種楽器(e.g., 歌声+歌声)の分離 • 新たな「性能」の模索 – 学習していない標本化周波数でも動作する音源分離 2023/6/23 音学シンポジウム2023 45

92.

標本化周波数非依存音源分離 [Saito+2022] • 未学習の標本化周波数でも動作するDNNベース音源分離手法 Analog-todigital filter conversion Amplitude Time-reversing Input 2023/6/23 音学シンポジウム2023 Time Discrete-time IRs Amplitude • 信号をリサンプリングする手法よりも, 一貫した分離性能で動作 Sampling period Imp./Freq. resp. of latent analog filters Amplitude – 畳み込み層をデジタルフィルタとして解釈 – 標本化周波数に非依存な構造(アナログフィルタ)を 導入し,様々な標本化周波数で一貫した重みを生成 Conv1D Time Weight s Time Output 46

93.

第2部のまとめ • 音源を手がかりを得るアプローチ – 数理モデル・学習ベースアプローチ – より多様な音源を統一的な枠組みで扱えるように発展 • 数理モデルアプローチ:非負値行列因子分解 – 少数の限られた音源が繰り返し出現する傾向を利用 • 学習ベースアプローチ – スペクトログラム入力型:観測スペクトログラムから時間周波数マスクを推定 – 波形入力型:音源信号波形を直接推定 • 最近の動向 – 分析再合成型アプローチの登場,同種音源の分離,新たな「性能」の模索 2023/6/23 音学シンポジウム2023 47

94.

音源分離に関するツール(Python) • pyroomacoustics – マルチチャネル音響信号処理のライブラリ – 様々なBSS手法(e.g., AuxIVA,ILRMA, FastMNMF)の実装も含む • Asteroid – DNNを用いた音源分離のライブラリ – 学習済みモデルもある程度付属 – コードが比較的に読みやすいので,初心者におすすめ. (ただし,最近更新が停滞気味.) • その他 – 音声強調であれば,ESPnetやspeechbrainライブラリの一部に付属 2023/6/23 音学シンポジウム2023 48

95.

データセット • 音声分離:WHAM,WHAMR,LibriMix – WSJ-2mix, -3mixなどもあるが,最近はベンチマークとしては不適当になってき ている印象 • 音声強調:DNS Challenge dataset,Voicebank+DEMAND • 楽音分離:MUSDB18,MedleyDB,Slakh2100,jaCappella • 環境音分離:FUSS,ESC10,ESC50 • その他 – AsteroidのWebページにもある程度記載あり – 音楽系であれば,ISMIRコミュニティのデータセットページが有用 – songKitamura:某界隈で有名なデータ 2023/6/23 音学シンポジウム2023 49