[DL Hacks]Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition

>100 Views

May 08, 18

#deep learning #音声認識 #PNCC #特徴抽出 #Robust Speech Recognition #中村泰貴

スライド概要

2018/05/07
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

各ページのテキスト

Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition 東京大学工学部システム創成学科Cコース B3 中村泰貴

自己紹介・東京大学工学部システム創成学科Cコース B3 中村泰貴・音声(深層学習を絡めた)や信号処理の技術に興味あります・今回が初回発表です...

書誌情報・論文名・Power-Normalized Cepstral Coeﬃcients (PNCC) for Robust Speech Recognition ・著者・Chanwoo Kim(Google) ・Richard M Stern(Carnegie Mellon University) ・公開日・2016/06/24 ・論文URL ・http://www.cs.cmu.edu/~robust/Papers/ OnlinePNCC̲V25.pdf

背景・音声認識で用いられる特徴抽出・MFCCかmelspectrogramがほとんど・別な特徴抽出方法はないのか... ・Robust性も欲しい！！・試してみる価値はある PNCC!!! deep speech2

PNCCとは・主な特徴・MFCCなどは対数を用いているのに対し、 PNCCは冪乗則を用いる・雑音低減させるasymmetric ﬁltering ・従来の特徴抽出との差異・様々なタイプの雑音環境下、エコーがかかる環境下で MFCCやPLPより認識精度が向上・計算コストがよりかかる・clean音声でも認識精度が落ちない

まずは結果から... LibriSpeech dev-cleanの音声に SNR=4[db]ほどのノイズを環境雑音を付加

まずは結果から... mel spectrogram PNCC

まずは結果から...

PNCCの機構

10.

11.

Gammatone Frequency Integration ・Filtabank http://aidiary.hatenablog.com/ entry/20120225/1330179868

12.

13.

Medium-Time Power Calculation ・Pの移動平均・M = 2 ・ガウスノイズに効果的

14.

15.

Asymmetric Noise Suppression ﬂoor level noise を検出

16.

Asymmetric Noise Suppression 有声音などの励起関数によって駆動されていないと思われる信号にlowpass ﬁlteringを適用すると認識精度が向上するこの動作は複数回のローパスフィルタになるため音声のパワー係数をぼかし、認識精度を低下させるため、音声セグメントに対して適用しない

17.

Asymmetric Noise Suppression 信号がそれ自身の下側崩落線の定数倍より小さいならばそれは励起されていないものと考える c= 2 がホワイトノイズに対してもっとも効果的

18.

Temporal masking 最終的なR[m, l]の値は... R[m, l] = Rsp[m, l] (excitation) R[m, l] = Qf[m, l] (non-excitaion) となる

19.

20.

Weight Smoothing

21.

22.

Mean power normalization

23.

24.