[DL Hacks]Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition

>100 Views

May 08, 18

スライド概要

2018/05/07
Deep Learning JP:
http://deeplearning.jp/hacks/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition 東京大学工学部システム創成学科Cコース B3 中村泰貴

2.

自己紹介 ・東京大学工学部システム創成学科Cコース B3 中村泰貴 ・音声(深層学習を絡めた)や信号処理の技術に興味あります ・今回が初回発表です...

3.

書誌情報 ・論文名 ・Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition ・著者 ・Chanwoo Kim(Google) ・Richard M Stern(Carnegie Mellon University) ・公開日 ・2016/06/24 ・論文URL ・http://www.cs.cmu.edu/~robust/Papers/ OnlinePNCC̲V25.pdf

4.

背景 ・音声認識で用いられる特徴抽出 ・MFCCかmelspectrogramがほとんど ・別な特徴抽出方法はないのか... ・Robust性も欲しい!! ・試してみる価値はある PNCC!!! deep speech2

5.

PNCCとは ・主な特徴 ・MFCCなどは対数を用いているのに対し、 PNCCは冪乗則を用いる ・雑音低減させるasymmetric filtering ・従来の特徴抽出との差異 ・様々なタイプの雑音環境下、エコーがかかる環境下で MFCCやPLPより認識精度が向上 ・計算コストがよりかかる ・clean音声でも認識精度が落ちない

6.

まずは結果から... LibriSpeech dev-cleanの音声に SNR=4[db]ほどのノイズを環境雑音を付加

7.

まずは結果から... mel spectrogram PNCC

8.

まずは結果から...

9.

PNCCの機構

11.

Gammatone Frequency Integration ・Filtabank http://aidiary.hatenablog.com/ entry/20120225/1330179868

13.

Medium-Time Power Calculation ・Pの移動平均 ・M = 2 ・ガウスノイズに効果的

15.

Asymmetric Noise Suppression floor level noise を検出

16.

Asymmetric Noise Suppression 有声音などの励起関数によって 駆動されていないと思われる 信号にlowpass filteringを 適用すると認識精度が向上する この動作は複数回のローパスフィルタに なるため音声のパワー係数をぼかし、 認識精度を低下させるため、音声セグメントに 対して適用しない

17.

Asymmetric Noise Suppression 信号がそれ自身の下側崩落線の定数倍より 小さいならばそれは励起されていないもの と考える c= 2 がホワイトノイズに対して もっとも効果的

18.

Temporal masking 最終的なR[m, l]の値は... R[m, l] = Rsp[m, l] (excitation) R[m, l] = Qf[m, l] (non-excitaion) となる

20.

Weight Smoothing

22.

Mean power normalization

24.

Power Function nonlinearity MFCCによる処理 PNCCによる処理

25.

EXPERIMENTAL RESULTS (a)white noise (b)street noise (c) background music (d) interfering speech (e) artificial reverberation

26.

Computational Complexity