【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separation”

198 Views

July 01, 22

#deep learning #Deep Learning #Sound Source Separation #Gestalt Principles #Auditory Scene Analysis #Computational Scene Analysis

スライド概要

2022/07/01
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP Gestalt Principles Emerge When Learning Universal Sound Source Separation [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • “Gestalt Principles Emerge When Learning Universal Sound Source Separation” H. Li, K. Chen and B. U. Seeber, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 1877-1891, 2022, doi: 10.1109/TASLP.2022.3178233 https://ieeexplore.ieee.org/document/9783204 • 概要 – 一般的な音響源（音声、楽曲、環境音）の重複音響信号の分離を、教師あり深層学習することで、脳内に生来存在すると言われている Gestalt principleが出現することを初めて確認 – Gestalt principleとは：脳内の感覚機能（視覚、聴覚、嗅覚など）に関して、重畳刺激から、proximity, continuity, similarity等の原則に従って、感覚情景物体（外界の刺激発生源に対応する脳内の源）を脳内にグルーピングして形成するという考え • 動機 – 複数音声分離のメカニズムに興味 2

https://ieeexplore.ieee.org/document/9783204

アジェンダ • 背景 – Gestalt principle – Auditory Scene Analysis (ASA) – Computational Scene Analysis (CASA) – Deep learning手法によるConv-TasNet • • • • • 提案手法：一般音響の重畳入力でのモデル学習評価結果：一般音響の重畳分離性能モデルの心理音響実験と評価結果まとめ感想 3

背景: 重畳音響分離研究の２つの流れ • 聴覚のメカニズムを解析して工学的に実現しようとする流れ – 脳内の感覚器の構造に関する原則：Gestalt principle ↓ – 聴覚の重畳分離メカニズムの知見を集める研究：Auditory Scene Analysis (ASA) • 被験者に心理音響的実験を行い、その振る舞いから知見を集める ↓ – 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計して構築する：Computational Scene Analysis (CASA) • 手設計のため、key-pointの取りこぼしなど有り→分離性能を評価は限定的 • 分離メカニズムの中身は考えずにdata-drivenで分離タスクを実現しようする深層学習の流れ – 2010年以降のDeep-Learningの教師あり学習を使う – 音響統計に基づく分離タスクを達成することで、分離性能は改善している(SOTA) 4

背景: 重畳音響分離研究の２つの流れ • 本論では、深層学習の流れで学習したモデルを被験対象にして、 Auditory Scene Analysis (ASA)の心理音響的実験を施したところ、人間の被験者と同様の振る舞いを示した – Auditory Scene Analysis (ASA)の元になるGestalt principleが学習モデル内に獲得できたことになる。 – 何故、獲得できたのか、理由は解析中 5

背景:Gestalt principle • 感覚器(目、耳、鼻、etc)が受ける、複数発生源からの同時外界刺激から、発生源単体の感覚情景物体を、個別にグループ化し分離する仕組みが、生来、脳内で組み込まれている • ドイツの心理学者・ヴェルトハイマー（1880～1943）から生まれた「ゲシュタルト心理学」における中心的な概念近接の法則（Law of Proximity）:「距離が近い特徴は同じグループ」類同の法則（Law of Similarity）:「色や形が似ている特徴は同じグループ）連続の法則（Law of Continuity）:「連続的に変化する特徴は離散的に変化する特徴よりも同じグループ」共通運命の法則（Law of Common Fate）：「同じ方向に動いている特徴や、同じ周聴覚情景期で点滅している特徴は同じグループ」物体神経励起神経励起信号光視覚シーン網膜特徴抽出視覚の場合信号 Gestalt principle 視覚情景物体犬の風の音鳴声人の声蝸牛特徴抽出人の声聴覚シーン Gestalt principle 犬の鳴声風の音聴覚の場合 6

背景：Auditory Scene Analysis (ASA) • Gestalt principleをベースに、聴覚の重畳分離メカニズムの知見を集める研究 - Bregman, A. S.: Auditory Scene Analysis : The Perceptual Organization of Sound, MIT Press, Cambridge, Massachusetts, U.S.A. (1990). - Middlebrooks, J. C., Simon, J. Z., Popper, A. N. and Fay, R. R. :The Auditory System at the Cocktail Party, Springer Handbook of Auditory Research, Springer Nature Switzerland AG., Cham, Switzerland, (2017). • 心理学音響実験による知見 – 被験者：人間 – 入力音：種々のトーン – 被験者の判断：単一音or複数音に知覚 • ２つのパス – Primitive Grouping: Bottom-up process • Simultaneous Grouping：ピッチ、調音、onset、AM、FM • Sequential Grouping：上記特徴量のproximity, continuity, similarity, common fateをベースにgrouping – Schema-driven: Top-down process • Attention: 注目する発声体に脳内の振る舞いが注力 (抜粋) The Auditory System at the Cocktail Party 7

背景: Computational Scene Analysis (CASA) • 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計 - D. Wang and G. J. Brown, “Fundamentals of computational auditory scene analysis,” in Computational Auditory Scene Analysis: Principles, Algorithms, and Applications, D. Wang and G. J. Brown, Eds., Hoboken • ASAのPrimitive Grouping: Bottom-up processを２つ工程から作る – Segmentation、Grouping: • 聴覚器官の工程を細分化し、それぞれ数理モデル化し、設計後、接続してシステムにする→音声を実用で分離可能なレベルでは無い（抜粋） M. Elhilali and S. A. Shamma, “A cocktail party with a cortical twist: Howcortical mechanisms contribute to sound segregation,” J. Acoust. Soc. Amer., vol. 124, no. 6, pp. 3751–3771, 2008 8

背景：Conv-TasNet • 重畳音声（音声ー音声）分離モデル • Network構成 – Encoder-Separator-decoder構造 – Encoder/Decoder: 1-D Conv – Separator: 複数 Dilated 1-D Convolution Blockベースの分割マスク推定法 • 入力信号：重畳音声 𝑦(𝑡) • 出力：分離後の単話者音声 𝑠Ƹ𝑖 , 𝑖 = 1, ⋯ , 𝐶: 話者数𝐶 • Loss関数：SI-SNR (抜粋 )Luo, Y. and Mesgarani, N.: Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 27, No. 8, pp. 1256–1266 (2019). 9

10.

提案手法：一般音響の重畳入力でのモデル学習 • Data set – 一般的な音響信号全般 • 音声：LibriSpeech • 楽曲：musan • 環境音：BBC sound effect – 上記3つカテゴリから重複を許して２つ選び、重畳するクリップを作成 • 計6通り – 重畳音響信号のSNRは-5dB～5dBからランダム – 訓練data：126000クリップ（150時間）、Validation data: 36000クリップ(30時間）、テスト data: 18000クリップ(15時間) • Conv-TasNetを学習data/validation dataで学習して、test dataで分離後音声品質改善度（SiSNRi)でモデルを評価する – これで、Conv-TasNetが一般音響信号の混在環境を学習した 10

11.

評価結果：評価結果：一般音響の重畳分離性能その１ • 結果 – Conv-TasNetは、音声を含むdatasetの分類で性能が高い。 – Conv-TasNetはIRMよりも良い → Conv-TasNetがユニークな調音構造を学習できているから – 音声を含む場合は、Windows長は短い2msecから順番に分離性能がよい→音声には2msec程までの時間解像度が必要 – 楽曲ー楽曲のpairが悪い 11

12.

評価結果：評価結果：一般音響の重畳分離性能その２ • 入力SNRが悪いものほど、改善幅Si-SNRiは良くなる： – 全カテゴリーに共通 • 分離後のspectrogram上も、上手く分離できていることが確認できた。 12

13.

評価方法：モデルの心理音響実験 • 一般重畳音響で学習したConv-TasNetモデルを被験者に置き換えて、Gestalt princileから導かれた Auditort Scene Anaysis(ASA)で用いる心理音響実験を行う • 目的は、学習したモデルにgestaltな原則が学習できているか否かを評価する • ASAにおけるbottom-up processに関する実験 – Simultaneous Groupingに関する実験（実験１） – Sequential Groupingに関する実験（実験２） – ２つのGroupingメカニズムが同時に起こる場合に、協調するか競合するかを確認する実験（実験３） – 調音を持つ複雑入力（音声）を使ったGroupingの実験（実験４）→理解が不十分のため今回割愛します 13

14.

実験１： Simultaneous Groupingに関する実験その１ • 聴覚のおける知見：調音構造になっている音は一つの音 • （実験１－１）調音の入力に対する振る舞い – ２つのトーン（各トーンは３つの調音（整数倍の周波数成分）を持つ）は一つの音かそれとも２つの音か？（F0=110Hz, 165Hz) • 実験の入出力：onset時間差は0 学習後の Conv-TasNet 推定音響１推定音響２ • 実験結果 – ２つのトーンが調音を共有する時は１つの音に聞こえる – ２つのトーンが調音を共有しない時は２つの音に聞こえる • 人間の聴覚の振る舞いと同じ 14

15.

実験１： Simultaneous Groupingに関する実験その２ • 聴覚における知見：onsetの時間差は調音とは独立に判定 • （実験１－２）onsetのズレに対する振る舞い – ２つのトーン（各トーンは３つの調音（整数倍の周波数成分）を持つ）がonset時間に差が有るとき、一つの音かそれとも２つの音か？ • 実験の入出力一音から二音へ認知が変化学習後の Conv-TasNet 推定音響１推定音響２ • 実験結果 – ２つの入力トーンの基本周波数の差ΔF0によって、振る舞いが違う • （例）Δfoが小さい場合は一音にしか聞こえなかいが、onsetが大きいと二音 – Onsetの時間差は調音とは独立だ • 人間の聴覚の振る舞いと同じ 15

16.

実験１： Simultaneous Groupingに関する実験その３ • 聴覚による知見：同じAMやFMが掛かる信号等は、一音になる→共通運命（fate principle)の法則に従う • （実験１－３）AMやFMが掛かる場合の振る舞い • 実験の入出力音節に相当の約3Hzにpeak – 一トーンの全調音にのみ同じAMあるいはFMを適用学習後の Conv-TasNet 推定音響１推定音響２ • 実験結果 – ２つのトーンが調音を共有していて、AMでもFMでも rate=0,depth=0では強い調音関係のために一音だったものが、一方のトーンにのみAMあるいはFMを施すと途端に2音に認識する – 共通運命の法則に従っている • 人間の聴覚と同じ（音節に相当する約3Hzにpeakあり） 16

17.

実験２： Sequential Groupingに関する実験その１ • 聴覚における知見：ΔF0とTRTでvan Noordenのtemporal coherence boundaryが観測される→周波数と時間の両方で近いcomponentは一音になる（近接（proximity）の法則） • （実験２－１）近接の法則が効いているか？ • 実験の入出力学習後の Conv-TasNet 推定音響１推定音響２ • 実験結果 – temporal coherence boundary と類似の境界線が得られた • 聴覚と同じ近接の法則が効いている 17

18.

実験２： Sequential Groupingに関する実験その２ • 聴覚における知見：連続的な同じ動きをするものは一音（連続（Continuityの法則） • （実験２－２）連続の法則が効いているか – ２つのトーン間の遷移時に周波数を連続的にかえると、離散にかえるとの差が有るか • 実験の入出力学習後の Conv-TasNet 推定音響１推定音響２ • 実験結果 – 同一の連続時遷移のものは、離散的な遷移と比較して一音として見られ易い – 連続の法則が効いている • 聴覚と類似の連続の法則が効いている 18

19.

実験２： Sequential Groupingに関する実験その３ • 聴覚における知見：音色が違い（調音の度数の組み合わせの違いが一音か二音かに影響するか（類似（similarity)の法則） • （実験２－３） – ２つのトーンは同じ基本周波数を持つが、この２つは異なる連続した３つ度数の調音を持っている時、一音か二音か？（例）T1～T10の異なるトーンを作っておく T1:F0+調度 1+2+3 T2:F0+調度2+3+4, …. • 実験の入出力学習後の Conv-TasNet 推定音響１推定音響２ • 実験結果 – 度数の組み合わせが類似のものは、一音。違うものは、二音。 – 類似の法則に従う • 聴覚と類似の類似の法則に従う 19

20.

実験３： SimulaneousとSequential が同時発生の実験 • 聴覚での知見：現在の特徴のなかで直前の状態の連続線上にあると考えられものはそのまま居続けてよい • （実験３－１） – 同じ発生源が複数の特徴量を生成するときは、simultaneousとsequential groupingの両方が同時に発声することがある。その時の振る舞いを実験する • 実験の入出力 – – – – BをAとCの両方が自分の方に取り込んで一音にしようとする B：周波数固定、 A：Seq groupingのProximity入力（対BでΔF0とTRTが可動） C：Sim groupingの入力 (対BでΔF0とΔonsetが学習後の可動） Conv-TasNet 推定音響１推定音響２ 20

21.

実験３： SimulaneousとSequential が同時発生の実験 • 実験結果 –a, b) A対B＋C • Sim: 強. BとCは一音 • Seq: 強. AとBは二音 →SimとSeq: A対B＋Cで共同 –C)AとCはBを巡って拮抗している –C1）A＋B対C • Sim: 強い. BとCは一音 • Seq: 最強：continuity AとBは連続法則に従うために一音 → seq > simのため、 A＋B対C – C2）A対B＋C • Sim: 強．B＋Cは一音 • Seq: 弱. → seq < simのため、 A対B＋C –c3）A＋B対C • Sim: 弱. BとCは二音 • Seq: 中：AとBは一音 → seq > simのため、A＋B対 C d）A＋B＋Cが一音 Sim: 弱．BとCは二音 Seq: 弱. A＋Bは一音 → TRT:大では、seqが支配的なため、A＋B＋Cが一音 21

22.

実験３： SimulaneousとSequential が同時発生の実験 • 実験結果続き – Simultaneousとsequentialのどちらが主導権を握るかは、場合によるので、一概に言えない 22

23.

著者たちの考察 • 本論は、分離メカニズムの中身は考えずにdata-drivenで分離タスクを実現しようする深層学習の流れに乗った研究に基づく – 教師あり深層学習でSOTAを出す名覚まし成果が上がってきている – しかし、これらの深層学習モデルは、音響統計をベースにした重畳音響分離タスクを最適化するモデルであり、生物学的に望ましいnetworkをモデルに採用する努力はしていない – それでも、一般音響重畳入力の音響統計ベースに即して学習したモデルが、心理音響実験において、Simultaneous GroupingやSequential Groupingなど、 gestalt principleに基づく人間の聴覚の分離メカニズムに従った振る舞いを示すことが初めて分かった。 – 深層学習のゴールは、人間と同様な最適解を自発的に学習することなのか？それは可能なのか？この問いに対して、今回のモデルが、純粋に信号処理をベースにしたことだけで、聴覚の音声分離メカニズムが自発的に出現したということを深く掘りさげると、深層学習や聴覚脳神経学の今後の研究に有益な示唆をあたえるものと信じている。 23

24.

まとめと感想 • まとめ – 一般音響重畳入力の音響統計をベースにしたConv-TasNetに、一般的な重畳音響を分離する教師あり学習をさせたところ、心理音響実験で、Gestalt principleに基づく人間の聴覚の分離メカニズムに従った振る舞いを示すことが初めて分かった – 何故、Conv-Tasnetで起こったのか、明確な理由はわかっていない。今後の研究課題である • 感想 – Conv-TasNetのどの部分が貢献して、Gestalt principleに従う分離メカニズムが構築されるのか？一つはseparatorの構造が1D-dilated-Convのblockが多重になっており, Temporary Convolution Network(TCN)と呼ぶ構造を持っている。これは、受容野を最大1秒まで広げる効果があり、 simultaneousとsequential groupingの時系列パターンの形成に役立っていることは確かだ。しかし、それだけで、聴覚のGestalt principleに基づく分離メカニズムを自発的に学習するとは本当か？ – Conv-TasNet以外のNetworkでは同様なGestalt principleに基づく人間の聴覚の分離メカニズムを示すものはあるのか？ 24

25.

END 25