[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning

217 Views

February 18, 22

#deep learning #Deep Learning #Speaker Recognition #Contrastive Learning #Clustering #Purifying

スライド概要

2022/02/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP An Iterative Framework for Self-supervised Deep Speaker Representation Learning [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • “An Iterative Framework for Self-supervised Deep Speaker Representation Learning ” Danwei Cai!, Weiqing Wang!, Ming Li!† !Department of Electrical and Computer Engineering, Duke University, Durham, USA †Data Science Research Center, Duke Kunshan University, Kunshan, China 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) , pp.6728-6732 https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414713 • 概要 – 話者認識(Speaker Recognition)の分野で、①Contrastive learning＋clustering ＋purifying＋擬似ラベルベースspeaker classficationを用いて、② 上記を繰り返し学習することで、従来のContrastive learningよりも、よい話者表現が得られた。 – この表現を、話者認識の一応用である話者照合（Speaker Verification)タスクで適用したところ、話者認証性能が、単純なContrastive learningよりも向上した。 • 動機：複数音声分離に話者同定の技術を組み込むことで音声分離の向上を検討 2

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414713

アジェンダ • • • • • 背景提案手法評価まとめ感想 3

背景: Speaker Recognitionとは • Speaker Recognition(話者認識) – Speaker Recognition(話者認識)：人間の声から個人を認識（識別や認証などを含む）する技術 – 種類として、Speaker Verification(話者照合)、Speaker Identification(話者識別)がある Speaker Recognition Speaker verification Speaker Identification 本論文の対象技術分野 • Speaker Verification（話者照合): 登録してある本人の話者データと一致するかどうかを判断する技術 • Speaker Identification（話者識別): 登録してある他人数のデータの誰の声かを特定する – いずれも、話者の表現学習（Representation Learning)に帰着 4

背景:話者表現学習とは • 話者の表現力学習の種類 – 話者の平均特徴からの差を話者毎の特徴vectorとする： i-vector – DNNによる特徴量抽出 • Supervisedな方法: →アノテーションの労力は高い • Unsupervisedな方法（特にSelf-Supervisedな方法） – Generativeなアプローチ → 波形レベルの再構成は不要 – Discriminativeなアプローチ→Contrastive Learning 5

現状の課題、達成したい目的と提案方策 • 現状の課題 – 従来のContrastive Learningのみの学習で得た表現力には、ラベルにノイズが入り込んでおり、クラスタリング性能と下流タスク性能を劣化させている • 達成したい目的 – ラベルノイズを低減し、話者照合タスクの性能を向上させる話者表現の獲得 • 提案方策 – 提案方策①）擬似ラベルの純粋化（purify)：信頼度の低い擬似ラベルを持つデータは学習から排除 – 提案方法②） Contrastive learning → clustering → purify → speaker classification という、一連の手続きを複数回繰り返すことにより、表現力が増す – ①と②を併用して、よりよい話者表現を獲得する 6

提案手法-全体1 • 学習 Xi ,i=1,…,N’ ⑧ Augmentation (addition, reverberation) Xi ,i=1,…,N Xi,1 Xi,2 Xi,1 i=1,..M Speaker utterance xi i=1,…N M＜Nで、2M がContrastive learningの batchの大きさ ① Augmentation (addition, reverberation) Xi,2 i=1,..M Background noise ⑨Feature Extraction (80-Mel Spectrogram) ⑩ Embedding ( ResNet x2/ Pooling/FC) ④Feature ⑤ Extraction Embedding (40-Mel (ResNet/ Spectrogram) Pooling/FC) Frozen係数θ ③ ②Feature Contrastive Extraction Learning (40-Mel (ResNet/ Spectrogram) Pooling/FC) Mel Spec 2-D Feature map time ⑪ Classifier( FC?) Cross entropy loss Lspk ⑥Clustering ⑦ K-Means Purify 128次元純化した Embedding 擬似ラベル擬似ラベル vector (N個) (N’個) N’<N Contrastive Loss LCSL • ①～⑪を1roundとして、複数 round繰り返す • Network係数は、次Roundに持ち越すが、Clusteringの結果は持ち越さない。Clusteringは各Roundでゼロから学習する。 7

提案手法-全体2 • 話者照合テスト（下記の図は、発表者の推測）← 下流タスク？（例）「話者XはAか？」＠ A氏の銀行口座アクセス話者X のテスト音声 ⑨Feature Extraction (80-Mel Spectrogram) ⑩ Embedding (ResNetx2/ Pooling/FC) Frozen係数θ Clusterラベル照会話者Xの embedding 距離真偽判断真 or 偽話者Aの centroid 話者A 8

[beta]

提案手法-要素1
① Augmentation： aug(・)
– 背景ノイズを加算：
環境ノイズ、音楽、テレビ音、
バブルノイズ(複数話者の背景会話)
– 部屋の残響を施す

② ③Mel Spectrogram + Contrastive Learning
–
–
–
–
–
–

Training Set D = { x1,….,xN } , N:発声総数
Batch B = { x1,….,xM}, DからM個 (M<N)の発声をrandomにサンプリング
xiの２つの異なるsegment(2~4秒)：xi,1, xi,2
𝑓Θ ：Mel Spectrogram extraction + 34-layer ResNet + Pooling + FC
xi,1, xi,2のembedding：zi,1, zi,2,feature mapの統計量,
Loss:
9

10.

提案手法-要素2 ⑥ Clustering – K-Means • 𝑧𝑖 = 𝑓Θ (𝑥𝑖 ) • 𝐶 ∈ 𝑅 𝑑𝑥𝑘 ：centroid 行列, 𝑑: embedding次元数, 𝑘: クラスタ数 • 𝑦𝑖 ∈ 1, … , 𝑘 : 𝑧𝑖 に対するクラスタ割り当て（擬似ラベル） 𝑓Θ (・) • 𝐶𝑦𝑖 : centroid 行列𝐶の𝑦𝑖 番目の列ベクトル • 𝐶を右記の最小化問題から求める • 最適割り当て: {𝑦1 , … , 𝑦𝑁 }, 𝑁: 総サンプル数、を求める ⑦ purify – 擬似ラベルの信頼度: − 𝑧𝑖 − 𝐶𝑦𝑖 2 2 – 信頼度の低いサンプル順に、総サンプルN個の割合𝑝 0 ≤ 𝑝 ≤ 1 分のサンプル数を、次の⑧⑨ ⑩⑪で構成されるclassificationの学習対象から除く – さらに、結果としてクラスタ内に残るサンプル数が 𝑆 より小さいクラスタに属するサンプルも、次の⑧⑨⑩⑪で構成されるclassificationの学習対象から除く – 最初の数roundはpもSも大き目で、信頼度の高いサンプルのみを次の学習に残す 10

11.

提案手法-要素3 • ⑧⑨⑩⑪ 信頼度の高い擬似ラベルでのspeaker classification学習 – 信頼度の高い擬似ラベルを持つ学習データ 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1, … , 𝑁 ′ 𝑁′: 信頼度の高いサンプル数 – 𝑓Θ (・)：Mel Spectrogram extraction + 2x (34-layer ResNet) + Pooling + FC – Embedding: 𝑧𝑖 = 𝑓Θ (𝑎𝑢𝑔(𝑥𝑖 )) – Classify: 𝑔𝑤(・)： 𝑊 はclassifyのNetwork係数 – Loss: 𝑔𝑤(・) 𝑓 (・) Θ 𝑔𝑤𝑗 (𝑧𝑖 ) : クラススコアベクトル𝑔𝑤(𝑧𝑖 ) のj番目の要素 – Θと𝑊を同時に学習 11

12.

評価方法 • 話者照合タスクの性能で評価 • データーセット ① 話者表現学習 ◼ Voxceleb2データセット ◼ ◼ 話者数：5,994人、発声数：1,092,009 セラブのインタビューvideoの音声部を使用。Videoとラベルは使用しない ② 話者照合テスト ◼ ◼ ３種類のデータセット Voxcelb1 ◼ ◼ Voxcelb 1-E ◼ ◼ 話者数：40人、発声数：37,720 話者数：1251人、発声数：581,480 Voxcelb 1-H ◼ 話者数：1190人、発声数：552,536 ③ Augmentation用ノイズデータ ◼ MUSAN データセット ◼ 背景ノイズを加算：環境ノイズ、音楽、テレビ音、バブルノイズ(複数話者の背景会話) ◼ ◼ 部屋の残響を加える話者音声とのSNR：0~20dBをランダムに設定、加える時間的頻度は0.6の割合 12

13.

評価尺度 • クラスタリング性能の尺度 – – – – – Normal mutual information(NMI): 𝑈: ラベルのG.T., 𝑉: 予測した擬似ラベル 𝐼(𝑈, 𝑉): 𝑈と𝑉間の相互情報量 𝐻 ・ : 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑈と𝑉の分布が近い: 1に近い, 𝑈と𝑉の分布が独立:0に近い 0 ≤ 𝑁𝑀𝐼 ≤ 1 • 話者照合の尺度 – Equal Error Rate (EER): 本人拒否率(False negative)と他人受け入れ率(False positive)が同率になるように調整した時の率 → 小さい方が良い – minDCF(Detection Cost Function): cost x 本人拒否率＋costｘ他人受け入れ率 → 小さい方が良い 13

14.

実験設定 • ①②③ Contrastive learning – – – – Mel spectrogram特徴量: 40次元/フレーム１フレーム：25msec Hamming Window, 10msecシフト発声セグメント xi,j : 2~4秒の音声学習： • Batch size: 256 • 最適化：Adam, 初期学習レート：0.001, 温度係数τ：0.1 • ⑥ clustering – Cluster数( ハイパーパラメータ)：6000 • ⑧⑨⑩⑪信頼度の高い擬似ラベルでのspeaker classification学習 – – – – 擬似ラベルをG.T.とした教師あり学習 Mel spectrogram特徴量80次元/フレーム Embedding NNに、dropoutあり：過学習防止のため学習： • 最適化：SDG, 学習率：0.1→学習停滞時に1/10に減少 14

15.

評価結果1 • Purifyの効果 – Roundを進める際に、初期の数round は、厳しめに高信頼度のサンプルのみに絞って、Classifyの学習を行う。 Roundが増えるにつれて、信頼度の値が少々低いサンプルも入れて、 Classifyの学習に使う発声数を増やす（p↓、S↓) – NMIが各roundのpurify前と後で、改善される⇒roundの進行と伴に、クラスタリング性能が向上している – Purifyは、クラスタリングの性能向上に寄与している減少減少増加向上 Purify Purify 前後 15

16.

評価結果2 minDCF EER • 話者照合テスト性能 – minDCF、ERRともに、３つの datasetで、roundが進むにつれて性能向上する – Round1では、classify学習に使うサンプル数が全サンプル数の 32%にも関わらず、高信頼性のサンプルのみを使っているので、 minCDF, ERR(21.4%改善)ともに大幅に向上している – Roundを複数回実行することは、クラスタリング性能の向上、ひいては、話者照合システムの性能の向上になる – Fully supervised手法には劣る増加真のクラスタ数に近づく増加 (= 向上 ) 減少(=向上) 16

17.

評価結果3 • クラスタリング進捗の可視化（t-SNE)：６話者の場合 – Roundの進行とともに、クラスタリング、クラスタリングの密度が濃くなる 17

18.

まとめと感想 • まとめ – Contrastive learning＋clustering＋purifying＋擬似ラベルベースのspeaker Classificationを複数回繰り返すことで、Contrastive learning単体よりも、話者表現能力が増加し、クラスタリング性能及び話者照合性能を向上させることができた – Purifyの効果が、擬似ラベルのノイズによる性能劣化を回避し、round回数の進行と伴に、クラスタリング及び話者照合性能を両方を、向上させることができた – 今後の研究としては、 • 除外すべき信頼度の低いサンプルを選択する洗練された手法の研究：カリキュラム学習、ラベル平滑化 • 各roundのClustering結果を、次のclustering結果に生かす方策 • 感想 – 学習の計算コスト・時間の記述がなかったのが気になる – Roundを複数回繰り返すと良くなる理論的な根拠はあるのか。その公算があると思えたヒラメキはどこから？ 18

19.

END 19