[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme

710 Views

March 22, 22

#dee #deep learning #voice conversion #diffusion model #encoder-decoder model #high-speed sampling

スライド概要

2022/03/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 88.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 61.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 41.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 40.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Di usion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme 発表者: 阿久澤圭 (松尾研D3) ff http://deeplearning.jp/

http://deeplearning.jp/

書誌情報著者：Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Sergeevich Kudinov, Jiansheng Wei（所属： Huawei Noahʼs Ark Lab） • 発表：ICLR2022 (oral) • 概要：深層生成モデルの一種であるDi usion Modelを音声変換に利用 • 発表理由：Di usion-based 生成モデルの勉強，VCへの興味 ff • ff タイトル：Di usion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme ff •

研究背景：音声変換（Voice Conversion, VC） Model (e.g., DNN) ソース話者ターゲット話者 • Voice conversion (VC): ある発話の言語内容を保ったまま，声質を特定の人物に変換する • One-shot VC: one-shotで任意話者に適応 => ソース話者の音声を訓練に利用できない => モデルが特定の話者に依存してはいけない => 既存研究は入力から話者非依存の特徴量を抽出（VAE，Vector Quantization，PPG）

論文の概要 • 現状のVCの課題：品質と高速化 • 本研究の提案： • 高品質な音声変換が可能なエンコーダー・デコーダーモデルを提案 • エンコーダー：「平均声」を出力する（≈ 新たな話者非依存の特徴量の提案） • デコーダー：Di usion Probabilistic Model （DPM）を採用加えて，DPMの推論の高速化のための新しい手法を提案 • VC以外でも利用できる，汎用的な手法 ff •

手法の全体像 • 図の見方：実線がVC時のデータフロー，破線が訓練時のデータフロー • VC時のデータフローは普通のエンコーダー・デコーダーモデルと大体同じ

エンコーダー • エンコーダーは「平均声」を予測するようにMSEで訓練 • 「平均声」：特定の音素（a, i, u, e, oなど）に対応する音声データをたくさん集めて，それらの音声データを平均化したもの．平均化しているので話者に非依存 • この枠組の新規性について： • 従来手法：音素予測タスクや情報ボトルネック等を利用して，話者非依存の特徴量を抽出 • 提案手法：平均声は，音素（≈PPG）よりもリッチな情報を持つ表現

デコーダー ff • Di usion Probabilistic Model (DPM) のReverse Processを利用

デコーダーの理解に必要な知識 Score-based 生成モデル Sohl-Dickstein+2015, Ho+2020 Denoting di usion probabilistic modeling ff Song. et. al. 2019 Score-matching with Langevin dynamics Song. et. al. 2021 Score-based 生成モデルの連続時間化（≈Neural ODE化） Popov. et. al. 2022 本論文

離散版 Di usion Probabilistic Model (DPM) Ho et al. 2020 • Forward Process：データからノイズを生成．既知・簡単． • Reverse Process：ノイズからデータを生成．未知・扱うのが困難 ff => DNNで近似する

10.

連続版のDPM Song et al. 2021 • Song et. al. 2021 は先ほどのDPMを連続時間の場合に拡張 • • • メリット1: Forward, BackwardのPassは確率微分方程式 => 任意のSolver (e.g., Euler-Maruyama)で計算可能メリット2: パラメータの効率性が良い（論文中に記載はないがNeural ODE一般にメリット）しかし，Reverse SDE に登場するスコア関数 ∇log pt(x) が未知なので，Reverse SDEの計算はナイーブには困難 => DNN sθ(x(t), t) で近似する（時刻 t を入力にとる関数であり，Neural ODEとアイデアを共有）

11.

本研究のデコーダー • 基本的にSong et. al. 2021と同じ • 特殊な点：PriorがData dependentである • エンコーダーの出力 X̄ を，終端分布 p(XT ) の平均として採用（普通は標準ガウス分布） => ソース音声による条件付き生成を可能に

12.

サンプリング手法の提案 • 背景： • • • VCではリアルタイム性が重視されるしかしSDEの数値計算に利用される手法（Euler-Maruyama Solver 等）は反復計算を必要とするため，そのIteration数がボトルネック提案手法：Maximum Likelihood SDE solver • 更新式： • • ̂ = 0, ω̂ t,h = 0, σt,h ̂ = NOTE: Euler-Maruyama法の一般化（κt,h ざっくりとしたメリット：提案手法で得たパス X = テップ数Nにおいて尤度を最大化 N {Xkh}k=0 βth ）は任意のス

13.

実験既存手法との比較提案手法：Di -VCTK-ML-N（Nは推論時のIterationの数）評価基準：Naturalness（自然さ），Similarity（ターゲット話者っぽく聞こえるか）評価指標：MOS; Mean Opinion Score （人間による1~5点の評価） ff 音声デモあり：https://di vc-fast-ml-solver.github.io ff • • • •

14.

実験推論手法の比較 • • 推論手法：EM（Euler-Maruyama）, PF（Song+2021），ML（提案） EMはiteration数6だとほとんど性能が出ない

15.

まとめと発表者感想 • まとめ • Di usion-modelを利用したVC手法の提案 • 高速化のための推論手法も同時に提案 • 実験ではかなり高いMOSを達成（3.5以上は自分の知る限りSoTA） • 発表者感想 • サーベイ中Di usion Probabilistic Modelは品質・速度ともに数年でかなり進歩した印象をうけた • エンコーダーとデコーダーの貢献，どちらが大きいのか知りたい ff ff • エンコーダーの出力を音素事後確率（PPG）にしたらどうなる？

16.

References • Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising di usion probabilistic models. Advances in Neural Information Processing Systems, 33, 2020. • Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. In Advances in Neural Information Processing Systems, pp. 11895‒ 11907, 2019. • Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-Based Generative Modeling through Stochastic Di erential Equations. In International Conference on Learning Representations, 2021. ff Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning, pp. 2256‒2265, 2015. ff •