Style-Bert-VITS2のスケーリング則に対する検証実験

6.4K Views

May 01, 24

#TTS #Style-Bert-VITS2 #スケーリング則 #音声合成 #深層学習

スライド概要

yousan

@yousan

スライド一覧

Unity Engineer: Individual Activities → Making Games

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ローカルLLM LT会

yousan 9.2K

mistralモデルをベースとした日本語の大規模言語モデル

yousan 8K

モバイルでも動く軽量日本語ローカルTTSの作成と Unity向けライブラリの開発 ~ piper-plusとuPiperの開発の秘話 ~

ai unity

yousan 7.7K

ローカル環境で動く音声対話ができるAI キャラクター作成 for 生成AI新年会2024

yousan 7K

u1w共有会「チーム開発でのGoogle Sheetを使ったマスターデータの管理」

yousan 3.3K

生成AIゲームジャム LT「生成AIをゲームでどう使っていくのか」

yousan 2.2K

各ページのテキスト

Style-Bert-VITS2のスケーリング則に対する検証実験 2024/05/01 ようさん

目次 1. 2. 3. 4. 自己紹介チームのゴール背景と事前調査・検証学習内容と結果 2

自己紹介名前 : ようさん ● Unityエンジニア ○ ゲーム ○ (VR/MR) ● 趣味でTTSやLLM周り X(Twitter) @ayousanz 3

チームのゴール ● TTS(Bert-VITS2)のモデルにスケーリング則が適当できるのか、モデルサイズを大きくした際にどのくらい精度に影響があるのかの検証

背景 ● 現状のSBV2はイントネーションの再現が完璧とは言えない ● ユースケースとしてスピードよりも精度を重視したい場合がある

事前調査・検証「Textbooks Are All You Need」品質が高いデータセットの場合、品質が低いものよりもデータ量が数倍少なくてもいいモデルができるという内容の論文

事前調査・検証「Scaling Laws for Neural Language Models」モデルのサイズ、データセット量、計算量を上げると精度が良くなるという内容

10.

事前調査・検証 Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness 先端のエンドツーエンドTTSフレームワークであるVITSモデルにLlama2からの意味的埋め込みを統合しています。

11.

事前調査・検証 Scaling law is the key to LLMs. How about scaling law for multimodality (e.g., audio, visual)? https://x.com/xutan_tx/status/1783154647903113453 We plot some speech synthesis/recognition models and speech scaling law. Seems most synthesis models are OVER-parameterized compared to the compute-optimal model/data allocation.

https://x.com/xutan_tx/status/1783154647903113453

12.

事前調査・検証前回のハッカソンで二つのチームがTTSモデルの事前学習の作成 yodasやreazon-speechなどのコーパスを使用して学習していた。ただ合成した音声はコーパス側に影響を受けていた

13.

事前調査・検証高品質なコーパス × 少量の場合事前学習時の音声コーパスは、合計8時間程度

14.

事前調査・検証高品質なコーパス × 少量の場合事前学習モデルにイリシアちゃんコーパスでfine tuingしたもの

15.

事前調査・検証 fish-speech v1が15万時間の学習モデルを公開 (モデルはβみたいです)

16.

学習内容と結果 1. デフォルトサイズで学習(0.03 ~ 0.1B相当) 2. モデルを大きくしたもので学習(0.3b相当)

17.

学習内容と結果 "inter_channels": 192, "inter_channels": 256, "hidden_channels": 192, "hidden_channels": 256, "filter_channels": 768, "filter_channels": 2048, "n_heads": 2, "n_heads": 16, "n_layers": 6, "n_layers": 24, パラメータ参考: rinna/japanese-gpt2-medium

18.

学習内容と結果学習率: 2e-4 バッチサイズ : 1

19.

学習内容と結果デフォルトサイズ(0.03 ~ 0.1b) 0.3b相当サイズ

20.

学習内容と結果デフォルトサイズ 0.3b相当サイズ

21.

まとめ ● VRAMが24GBの場合、0.3b相当が限界(かも) ● speechMOSの傾向はまだ上がりそう ● 学習時間が足りず検証は終えていない → 最低でも200時間程度の追加学習は必要そう