【DL輪読会】Unsupervised Representation Disentanglement Using Cross Domain Features and Adversarial Learning in Variational Autoencoder Based Voice Conversion

>100 Views

February 19, 21

スライド概要

2020/04/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Unsupervised Representation Disentanglement Using Cross DEEP LEARNING JP Domain Features and Adversarial Learning in Variational [DL Papers] Autoencoder Based Voice Conversion Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

2.

書誌情報-1 • “Unsupervised Representation Disentanglement Using Cross Domain Features and Adversarial Learning in Variational Autoencoder Based Voice Conversion”, IEEE TRANSACTIONS ON EMERGING TOPICS IN COMPUTATIONAL INTELLIGENCE 2020, Wen-Chin Huang , etc The Institute of Information Science, Academia, Sinica, Taipei • 概要: – Voice Conversion(VC):ある話者の音響情報(スペクトル等)の内、話者情報は別 の話者情報に変え、言語依存情報は変えずに、音響情報を新たに生成する技術 – 変換音声の音質および了解度の改善:潜在空間で、言語依存情報と話者情報の分 離(disentanglement)を向上させる – 本論文の新規性:Variational Autoencoderの潜在表現能力に、敵対的学習(GAN)と 話者識別を追加して、変換音声の音質および了解度を改善した • 動機 – Variational Autoencoderによる音声の話者情報に依存する潜在表現の作り方を調査 2

3.

書誌情報-2 • 音声デモ:https://unilight.github.io/CDVAE-GAN-CLS-Demo/ • コード:https://github.com/unilight/cdvae-vc – フレームワーク:tensorflow 3

4.

アジェンダ • Voice Conversion(VC)とは – 問題設定(筆者) • Variational Autoencoderによる解法(筆者ら先行研究) – VAE-VC(Variational Autoencoder for VC) – CDVAE-VC(Cross Domain Variational Autoencoder for VC) • • • • CDVAE-VCの課題と解決策 CDVAE-CLS-GAN(新規提案) 評価データ・評価尺度・評価結果 まとめ・感想 – (Appendix) 問題設定(統計的モデルからの解釈-私見) 4

5.

Voice Conversion(VC)とは <問題設定> – 元話者(original)の音響情報(スペクトラムフレーム)𝑋𝑜𝑟𝑖 = [𝑥𝑜𝑟𝑖,1 , ⋯ 𝑥𝑜𝑟𝑖,𝑗 , ⋯ 𝑥𝑜𝑟𝑖,𝑁 ]、𝑗:時間フレームインデックスとした時、言語情報(音韻 等)は変えずに、目標話者(target)が発生した音響情報𝑋𝑡𝑎𝑟𝑔𝑒𝑡 = [𝑥𝑡𝑎𝑟,1 , ⋯ 𝑥𝑡𝑎𝑟𝑖,𝑗 , ⋯ 𝑥𝑡𝑎𝑟,𝑁 ]に対し、conversion function 𝑓を求めること 𝑥ො𝑡𝑎𝑟,𝑗 = 𝑓(𝑥𝑜𝑟𝑖,𝑗 ) 「元気ですか?」 元話者 Peter 「元気ですか?」 5

6.

Voice Conversion(VC):音声統計モデルからの解釈(私見)-1 <前提> – 音声の音響情報(スペクトラムフレーム)𝑋 = [𝑥1 , ⋯ 𝑥𝑁 ]は、2つの潜在情報で ある、言語情報(音韻情報フレーム)W = [𝑧1 , ⋯ 𝑧𝑁 ]と話者情報(音質フレー ム)y = [𝑦1 , ⋯ 𝑦𝑁 ]に依存する – 音声を統計モデル𝑝 𝑥, 𝑧, 𝑦 で記述できるとする – 言語情報𝑧𝑖 と話者情報𝑦𝑖 は独立 𝑝 𝑧𝑖 𝑦𝑖 ≅ 𝑝 𝑧𝑖 以下、添え字𝑖は省略 <問題設定> VCは、「ある統計モデル𝑝 𝑥, 𝑧, 𝑦 から、音響情報𝑥とその話者(情報)yのペ アー群{(𝑥 (𝑖) , 𝑦 (𝑖) )}𝑁 𝑖=1 がデータとして用意されている。その統計モデルからサン プリングしたペアー(𝑥 (𝑖) , 𝑦 (𝑖) )に対して、 𝑥 (𝑖) のみから𝑥 (𝑖) に含まれる言語情報 𝑧 (𝑖) を𝑝(𝑧 (𝑖) |𝑥 (𝑖) )で推定し、そこで推定した𝑧 (𝑖) と、別の話者(情報)𝑦 (𝑗) とを用 いて、話者𝑦 (𝑗) の言語情報𝑧 (𝑖) に対応した音響情報𝑥 (𝑗) を予測すること」である 6

7.

Voice Conversion(VC):音声統計モデルからの解釈(私見)-2 Voice Conversionシステム <問題設定> – これは、観測音響𝑥, 話者𝑦, 言語情報𝑧の時 音声の統計モデル𝑝 𝑥, 𝑧, 𝑦 – VCは、 𝑔𝑖𝑣𝑒𝑛 𝑥 (𝑖) , 𝑦 (𝑗) で、 𝑥 (𝑗) ← max 𝑝 𝑥 𝑧 (𝑖) , 𝑦 (𝑗) , 𝑝(𝑧|𝑥) <生成器> where 𝑧 (𝑖) ~𝑝(𝑧 |𝑥 (𝑖) ) <推定器> から 𝑥 (𝑗) を予測すること 7

8.

Variational Autoencoderによる解法-1 (VAE-VC) • Variational AutoEncoderのメリット – 教師あり学習データが不要。 – 音響情報𝑥 を潜在空間にマップし、理想的に は言語情報𝑧を獲得(実際は、 𝑍に話者情報 𝑦が滲みこんでしまう) – 別途、話者情報の潜在空間にマップしカテゴ リカル変数yとして獲得 – 低次元 𝑦, 𝑧の獲得 • VAE-VC(Variational Autoencoder for VC) VAEマッピング VAE部 – 学習: 𝑧,ҧ 𝑥ҧ は、𝑥のVAE-VCによる潜在変数と再 構成音声 • 𝑥ҧ = 𝐺Φ 𝑧,ҧ 𝑦 = 𝐺Φ 𝐸θ (𝑥), 𝑦 • 𝐿𝑣𝑎𝑐 θ, Φ, 𝑥, 𝑦 = 𝐿𝑟𝑒𝑐𝑜𝑛 𝑥, 𝑦 + 𝐿𝑙𝑎𝑡 (𝑥) ҧ 𝑦)] 𝐿𝑟𝑒𝑐𝑜𝑛 𝑥, 𝑦 = 𝐸𝑧~𝑞θ(𝑧|𝑥) ҧ [log 𝑝Φ (𝑥|𝑧, 𝐿𝑙𝑎𝑡 𝑥 = −𝐷𝐾𝐿 (𝑞θ 𝑧ҧ 𝑥)||𝑝 𝑧 ) – 音声変換(推論): • 𝑥ො = 𝑓 𝑥, 𝑦ො = 𝐺Φ 𝑧,Ƹ 𝑦ො = 𝐺Φ 𝐸θ (𝑥), 𝑦ො VAE-VCの構成図 8

9.

Variational Autoencoderによる解法-2 (CDVAE-VC) • CDVAE-VC(Cross Domain Variational Autoencoder for VC) – 𝑥の2種類(SP, MCC)の特徴量𝑥𝑆𝑃 , 𝑥𝑚𝑐𝑐 をねじれ 無、ねじれ有の計4パスのAEに通す。4つの 再構成音二乗誤差と、2つの潜在空間変数距 離を損失関数に加える。→2つのencoderは1 つの時よりロバストな潜在変数𝑧を学習する CDVAE-VCの構成図 CDVAE部の構成図 入れ替える 9

10.

CDVAE-VCの課題と解決策 • Variationa Autoencoderでの課題 – ①音響情報𝑥の言語依存情報zを𝑝 𝑧 𝑥 から推定した時に、zと話者情報yの独立 性の実現可否→言語依存情報zに話者情報yがにじみ込むことを防止可能か – ②Voice Conversion後の音響情報𝑥が平滑し過ぎで音がこもる • Variational AutoEncoderの誤差関数は二乗再生誤差なので平滑化の効果が大きすぎる • 解決策 – ①は→話者潜在変数𝑦分類器𝐶ψ を追加: 𝐶ψ :言語依存情報潜在変数𝑧は、どの話者𝑦からのデータかを判別する分類器 𝑦:話者のone-hotベクトル :クロスエントロピー損失 ∗ – ②は→CDVAEで得た再構成音𝑥の周辺確率密度分布𝑝 ҧ 𝑥ҧ を真の𝑝 (𝑥)に近づける 𝑝𝑥ҧ が𝑝∗ (𝑥)並みの複雑度を持ってほしい Wasserstein GAN 10

11.

CDVAE-CLS-GAN • CDVAE-GAN with CLS (CDVAE-CLS-GAN) – CDVAE-VCに解決策①と②を加えたNetwork – 学習は、Phase-1→2→{3A(1回)⇔3B(5回)} – 損失関数は以下:α(=50)、λはハイパーパラメータ(=1000) • CDVAE-GAN – CDVAE-VCに解決策②のみを加えたNetwork 11

12.

CDVAE-CLS-GAN • NetworkはCNNベース 12

13.

評価データ • 音声データ:Voice Conversion Challenge(VCC) 2018 – – – – 話者:12名 言語:英語 サンプリング周波数:22.050KHz 学習データ: • 70発声/話者x12話者 – Validationデータ: • 11発声/話者 x 12話者 – テストデータ(音声変換データ): • 35発声/話者 x 12話者 – WORLD vocoder: 音声特徴量 𝑥𝑆𝑃 ∈ 513次元、𝑥𝑀𝑐𝑐 ∈ 35次元、AP、F0を抽出 13

14.

評価尺度-1 • 客観的評価 – Mel-Cepstrum Distortion(MCD): • パラレル音声での評価 – パラレル音声:元話者からの変換音声(c)と目的話者の音声(t)がある場合を意味する • 発声音全体を通した(c)と(t)の二乗差平均 – Global Variance(GV): • 元話者からの変換音声(c)のみを使う • 次元ごとに発声全体を通して変換音声の平滑化度合いを評価する→スペクトル分散を評価 – Modulation Spectrum Distortion(MSD): • Modulation Frequency毎の歪率→スペクトル分散を評価 – Disentanglement Measurement • パラレル音声での評価 • 各フレーム毎の(c)における潜在変数𝑧𝑐 と(t)の潜在変数𝑧𝑡 のコサイン距離の全発声での平均 14

15.

評価尺度-2 • 主観評価 – Mean Opinion Score(MOS): • 被験者は(c)と(t)を聞き、自然性を5段階で評価する。 – VCC style test on similarity: • 被験者による(c)と(t)は同じ話者からの発声か?Agree-disagreeの4段階評価 15

16.

評価結果-1 • GANと音声特徴の関係 – MCD結果では、2つの特徴量を 使ったもの(Both)が良いが、 GVとMCDはMCCがTargetに近く 良い。 – 既存の研究でも、MCDはGVや MCDと矛盾する結果が報告有。 MCD結果 – Subjective Evaluationでは、 MCCが他を凌駕 – 結論:特徴量はMCC>SP、Both である。 MSD結果 16

17.

評価結果-2 • GANの効果 – VC結果、MS結果から、 Targetに近い方が良い GAN付きが良い。 • CDVAE-GAN>CDVAE • CDVAE-CLS-GAV> CDVAE-CLS – GANは再構成音のスペク トラムの分散を大きくし ており、スペクトルの平 滑化を軽減している→効 果あり VC結果 • CLSの効果 – VC結果、MS結果、MSD 結果、 Subjective Evaluationから、CLS付 は性能が良い→効果あり MS結果 17

18.

評価結果-3 • Disentanglement evaluation(DEM) – 特徴量SPがMCCよりも良いが、 次元数がSP=513>MCC=35と多 いためで、分解能が高いとDEM は高くなる。 – GANとCLSの効果あり 18

19.

まとめ・感想 • まとめ、 – Cross Domain Variational Autoencoderに、話者潜在変数𝑦分類器𝐶ψ (CLS)と Wasserstein GANを追加し、以下の良好な結果をえた。 – Wasserstein GANは、客観評価、主観評価、Disentanglement評価ともに、効果が あった。スペクトルの平滑化を軽減できたと考える – 𝐶ψ (CLS)は、客観評価、主観評価、Disentanglement評価ともに、効果があった。(t) の潜在空間変数と、(c)の潜在空間変数のコサイン距離は、CLSありの方が小さかっ た。よって、CLSは、潜在空間変数を真の値に集める効果がある。 • 感想 – 「VAEにおけるVCの問題設定を統計的モデルから解釈しようと試みたが、要領を得て いるのか不明である。→ご意見、誤りの指摘があれば、お願いします。 – 今後、サンプルコードを解析してみる。 19

20.

END 20