441 Views
October 12, 24
スライド概要
JAWSFESTA 2024 in 広島の懇親会LTの登壇資料です。AWS"AIサービスの一員"である Amazon Polly のチューンングについてお話ししました。
システム維持PjM&SE #AWS/コミュニティ #営餃 #DevReljp #JBUG #BacklogWorld #JAWSUG #PRLT #開発PM勉強会/趣味 #バイク乗り #桃が好きなんです #富士山好き🗻51回登頂 #つれづれジャニ #ジャニタビ #ジャニソラ/著書📘http://amzn.to/3IUyM87
Festa 前夜祭 Amazon Polly sisters at Jaws Festa 2024 in Hiroshima!! 〜概要と音声合成マークアップ言語(SSML)によるチューニング〜 Journeyman | @beajourneyman Oct 2024
音声合成してますか?
本日、お伝えしたいコト(結論) Amazon Polly の特徴をつかむ チューニングの勘所をつかむ 最新のトレンドをつかむ
Journeyman ジャニ (Takeki Oizumi) 所属:セゾンテクノロジー(4月に社名変更) 仕事:Amazon Connect を基盤とした IVRシステムの開発保守リーダー 推しサービス:Amazon Connect / Polly SNS:@beajourneyman 認定: CLF / SAA / AIF(Beta)
Amazon Polly とは?
自動音声応答(IVR)のコールフローで使用
AWSの”AIサービス”の一員 Amazon Polly は進化している
2023/02/08 日本語ニューラル女性音声提供 Kazuha&Tomoko
歓喜して、早速お客様提案したものの、 音声合成してみると拭えない違和感が orz...
Kazuha と Tomoko が活躍するために 必要なのは、 音声合成マークアップ言語(SSML) によるチューニング
音声合成マークアップ言語(SSML)とは? Speech Synthesis Markup Language ピッチ、発音、読み上げ速度、音量などのテキス ト読み上げの出力属性を微調整するために使用 できる XML ベースのマークアップ言語
スタンダード音声 demo (非ニューラル,Mizuki)
与えているテキスト JAWS FESTA 2024 in 広島、開催おめでとうございます!
チューニングしない音声 demo (ニューラル,Kazuha)
チューニングした音声 demo (ニューラル,Tomoko)
急遽追加した音声 demo (ニューラル,Tomoko)
プロダクションレベルで頻出のタグ
タグ
用途
ユースケース
<break time="0.1s"/>
ブレイク(間)を入れる。
連続で話すコトで不自然に
感じてしまうケースで非常に
有効。0.05秒などコンマ2単
位でチューニングする。
<p></p>
明確に文章の区切りを入れ
る。
区切りを入れないと、人間だ
と息継ぎをしているような
ケースも一気に発話してしま
い。違和感になる。
<phoneme alphabet="xamazon-pron-kana" ph="オ
ヘ'ンロ">お遍路
</phoneme>
読み上げを制御する。アクセ 漢字読み上げ、イントネー
ントを入れられる。
ションを制御できる。尚、標
準語・関西弁などの指定は
できない
https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html
SSMLによるチューニング(FESTA本番仕様) <speak> JAWS FESTA 2024 <phoneme alphabet="x-amazon-pron-kana" ph="イ‘'ンヒロシマ">in 広島</phoneme> <break time="0.05s"/> <p>開催おめでとうございます!</p> </speak>
One more thing...
Amazon Polly は進化している(再)
2023/11/16 生成AIを取り込み
日本語バージョンのGAお待ちしてます!! (チューニングがいらない世界が来て欲しい)
ご注意!! サポートタグに違いあり
本日、お伝えしたいコト(結論) Amazon Polly の特徴をつかむ チューニングの勘所をつかむ 最新のトレンドをつかむ 是非使ってみてください!!
Appendix... Amazon Polly 数十の言語で高品質で自然な人間の声を展開 Amazon Polly ポータル Amazon Polly が 2 つの新しい日本語 NTTS 音声の提供を開始 2023/02/08 日本語ニューラル女性音声提供 AWS が 3 人の表現力豊かなアメリカ英語の声を備えた長文形式エンジンの提供 を開始 2023/11/16 生成AIを取り込み Amazon Polly と SSML(音声合成マークアップ言語)に関する備忘録 弊Qiita 関連ブログ
https://jaws-tohoku.connpass.com/event/327922/
聞いていただき、ありがとうございます! ジャニ (Journeyman) | @beajourneyman