[DL輪読会]音声言語病理学における機械学習とDNN

>100 Views

July 31, 20

スライド概要

2020/07/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] 音声言語病理学における機械学習とDNN Haruka Murakami, Matsuo Lab http://deeplearning.jp/

2.

A Survey on Machine Learning Approaches for Automatic Detection of Voice Disorders 他4本を読みました。 • Journal of Voice(2019) • Sarika Hegde , *Surendra Shetty, *Smitha Rai, and †Thejaswi Dodderi, *Udupi, and yMangaluru, India • 内容:近年の音声言語病理学(Pathological voice)における機械学習を 用いた音声障害の検出の様々な事例を紹介 • 選定理由:コンピューター発声にコンテキストを付けたいと思ってお り、現状どんな研究があるかを調べたかった、肺へのダメージを測れ る研究があったりするのかを知りたかった 2

3.

Vocology = Voice + Biology • 音声言語病理学という分野らしい • 発声には肺、声帯を要として各種呼吸器系 器官が関わる他、言語にする際には脳の働きも 関わってくるため、発声音声の診断は単に喉の 健康状態の測定だけでなく、様々な病気を検知 できる可能性がある http://gc.sfc.keio.ac.jp/class/2002_14630/slides/10/35.html 3

4.

Voice disorder • 定義: 年齢、性別、社会集団が同じような声と “質”、”音程”、”大きさ”、”滑らかさ”が解離しているもの • 例:声帯病変ーコミュニケーションに影響 – 対処:音声療法の基本は、発声時の喉頭筋と喉頭上筋の緊張を最適化することで、発 声効率を改善し、声帯病変の改善を図ること • 課題:従来の診断ではビデオ検査や喉頭鏡検査/ストロボスコピーなどの侵 襲的な検査をしているが実施が難しくコストも高い。 • →音響的・知覚的特徴をプロファイリングする(1980年代初頭〜) – 音声治療前後のパフォーマンスの変化を比較するための効率的なツールになる – 自動音声認識システムのための音声データベースの開発にも役立つ 4

5.

具体的な病変種別 • 様々な声帯病変の中でも、重層的な声帯への音の外傷的な影響により、 集団性の病理学的疾患が非常に多く見られる。持続的な組織の炎症や 外部からの影響により、しばしば声帯結節や声帯ポリープが発生する。 声帯の閉鎖は不完全であり、発声効率が悪く、嗄れる • 逆に、筋緊張性発声障害や機能性発声障害のように、声帯の病変はな いが、声帯疲労、声質の低下、喉頭緊張の亢進などが観察される。 • 適応症状:パーキンソン病(PD)、喉頭病理、口唇口蓋裂(CLP)、結節、 ポリープ、角化症、内転子など 5

6.

(参考)声に表れる障害種別 • コミュニケーション学的障害 – 音声障害、言語障害、社会的コミュニケーション障害、認知コミュニケーション障害、 嚥下障害の5つに分類される • 音声障害分類マニュアルによると、声帯の機能亢進・機能低下の病態は – – – – – – – – – – – (i)声帯結節、声帯ポリープなどの構造的病変 (ii)急性喉頭炎などの炎症性疾患 (iii)外傷や外傷に基づくもの (iv)甲状腺機能亢進症や甲状腺機能低下症などの全身性疾患 (v)逆流障害や気管支炎などの非喉頭気道消化器疾患 (vi)精神医学的・心理学的疾患 これらの疾患は、声帯が機能的に変化しているものに分類されています。 (vii) 神経学的疾患 例えば、内転子麻痺、外転子麻痺、外転子麻痺、および 痙攣性発声障害、(8)筋電図のようなその他の障害 (ix) 診断されていないが、それ以外は特定されていない。 6

7.

よく行われている従来手法(ML)の処理 • 1.専門家が音声データ(各ファイル)に(正常/病的)のラベル付け • 2. 各ファイルの生の音声データを短いフレームに分割、各フレーム を処理して特徴量を抽出 • 3.その抽出された特徴量を入力として利用 • 訓練データとテストデータはランダムで分割 • モデルの性能評価:分類精度 • 使用データベース:Massachusetts Eye and Ear Infirmary (MEEI)、 Saarbruecken Voice Database (SVD)、Arabic Voice Pathology Database (AVPD)などの標準的なデータベースを利用している研究者 が多い – 録音された音声には、母音の持続音韻と連続音韻のどちらかが含まれている。 7

8.

特徴抽出方法(1) • 音響分析とは、音声に含まれる音の情報を測定することです。音響分 析の結果は、音声障害の重症度を測定するために使用することができ る。音声信号の音響分析に関連する測定方法のいくつかは以下の通り である。 • (i) 基本音程の周期とピーク振幅の摂動。 • (ii) 信号に含まれる音声ノイズ。 • (iii)周期的な波形の変動。 • (iv) 平均周波数特性。 • (v) 信号の遷移特性。 • Multidimensional Voice Program (MDVP)という音響解析のための標 準的なソフトウェアで33個の音声パラメータ(周波数依存、強さ、ノ イズ由来の要素など)を推定できる 8

9.

特徴量抽出(2):MFCCについて • 旋律周波数ケプストラル係数(MFCC)は、人間の聴覚系の知識を利 用した標準的な特徴抽出法 • 1フレーム12,13のMFCC特徴量を抽出するための一般的な手順は • i. 離散フーリエ変換係数の計算 • ii. メル間隔をおいた三角フィルタによるフィルタリング • iii. サブバンドエネルギーの計算 • iv. 離散余弦変換係数の計算 9

10.

特徴量抽出(3):線形予測係数 • 線形予測(LP)分析では、最初のステップとしてソース信号を逆フィル タリング • ソース信号は、スペクトルを計算するために使用 • 計算されたスペクトルは、正常声と病的声の両方のエネルギー分布を 調べるために利用 • LPの数はのLP分析では、係数が重要な要素の一つとなっています。 • フォルマントピークを決定するために なぜなら • これにより、音声信号からのフォルマントの効果を正確に推定するこ とができます。 10

11.

特徴量抽出(4): • 離散ウェーブレット変換 – 音声を周波数領域に変換、時間ー周波数の解析を行う。病的な声の高域特性の 解析も可能 • 声門流量信号のパラメータ – 音声信号の逆フィルタリングを行うことで、声道の影響や口からの音声放射を 除去して、音声信号の特性を保持することで、声門流信号を得ることができま す。 • 次元削減 – (i) 主成分分析(PCA) (ii) 線形判別分析(LDA) (iii) 遺伝的アルゴリズム – (iv) 高次特異値分解 (v) Relief – (vi) Minimum redundancy maximum relevance (vii)フィッシャー識別率? (FDR) 11

12.

従来のMLの手法など • 隠れマルコフモデル(HMM)、ガウス混合モデル(GMM)、サポートベクターマシン(SVM)、人工 ニューラルネットワーク(ANN)、決定木、林耳分類器、K-meansクラスタリング、複合分類器な ど. • ChildersとBae18は、喉頭病理を検出するための2つの方法を開発した。(1)線形予測符号化(LPC) ベクトルとVQを用いたピッチ同期および非同期メタッドを用いたスペクトル歪み測定法、(2)時間 間隔と振幅差測定法を用いた電気喉頭蓋計(EGG)信号の分析法。精度は75.9%と69.0%。 • (Cairns,)Teager Energy Operatorと呼ばれる非線形演算子に基づいて、音声中の高次性を検出す る非侵襲的手法。確率分布関数に基づいて正常音声と超鼻声を分類。最大分類精度は94.7%。 • (Accardo and Mumolo) フラクタル次元パラメータ,エネルギー比,ゼロクロス特徴量を用いた アルゴリズムを記述し、これらの特徴量の分散行列を用い、正常音声と病的音声を比較。フラク タル次元、エネルギー比、ゼロ交差特徴量はそれぞれ96.1%、92.1%、94.1%の分類精度 • (Parsa and Jamieson)は、健常声と病的声を分類するための特徴量として、信号対雑音比、高調 波対雑音比[HNR]、雑音エネルギー、周波数領域HNR、ピッチ増幅度、スペクトル平坦度比を検 討した。本研究では、(i)測定値の確率分布、(ii)測定値の順位、(iii)各測定値の受信動作特性を比 較することで、2つの異なるクラスの測定値を分類した。得られた最高の分類率は96.5%でした。 Hadjito- dorovら22は、正常話者と病的話者の入力ベクトルの確率密度関数をプロトタイプ分布図 (PDM)を用いてモデル化したアプローチを提案し、95.1%の分類精度を達成しました。この際、 ピッチ周期、ピッチパルスの形状、HNR、低高エネルギー比などの特徴を利用している。 12

13.

近年の主要な研究 • 殆どSVMと混合ガウスモデル(GMM) • DNNを使った研究は1件+ハイブリッドタイプで1件 13

14.

Voice Pathology Detection Using Deep Learning: a Preliminary Study (Harar, 2018) • 使用データセット:Saarbruecken Voice Database • 687人の健康体の成人(女性428人、男性259人)と、71 の異なる病態のうち1つ以上を罹患している1356人の患 者(女性727人、男性629人)の録音 • 母音 /i/, /a/, /u/ は、正常、高音、低音での録音、音程 の立上がり/下がりをチェック • - センテンス "Guten Morgen, wie geht es Ihnen?" • 持続母音のサンプルはすべて1~3秒の長さで、50kHzで 16ビットの分解能でサンプリング 14

15.

(参考:A prospective multicentre study testing the diagnostic accuracy of an automated cough sound centred analytic system for the identification of common respiratory disorders in children) • 自動咳嗽音分析装置を用いた小児呼吸器疾患の診断精度調査 • 方法: • 典型的な臨床環境での咳嗽音を記録し,最初の5回の咳嗽を解析に用いた.解析 は、咳データと、患者/保護者が報告した病歴から得られた最大5つの症状入力を 用いて行われた。自動咳嗽分析装置による診断と、病院のカルテと利用可能なす べての調査を検討した後に小児科医のパネルによって得られたコンセンサスのあ る臨床診断との間で比較を行った。アルゴリズムは時間遅延ニューラルネット ワークでメル周波数セプストラル係数(MFCC)を認識。*DNNではない。 • 結果: • 29 日齢から 12 歳までの合計 585 名の被験者で実験。自動分析装置と臨床基準と の間の正の一致率と負の一致率は:喘息(97, 91%)、肺炎(87, 85%)、下気道 疾患(83, 82%)、クループ(85, 82%)、気管支炎(84, 81%)。 15

16.

23ページに渡るサーベイ論文だったが・・・ • 2018年までの135件ある引用文献のうちDNNは殆どなく、一件だけ? • 音声言語病理学分野の自動音声障害検出は、殆どが音声の特徴量抽出手法 に焦点を当てたものでSVMが主流、次点で混合ガウスモデル(GMM) • DNNを用いた研究は非常に少ないらしい • 筆者曰く、大規模な病声データベースが利用できないことがこの分野で DNNの研究が進んでいない原因であり、SVMが多用されているのもデータ 不足が大きな原因だそう • さらに既存の研究では一見精度が高いように見えるが、特徴量設計が人手 でデータセット外の環境では精度が出ない可能性が高い • 感想:狭い分野とは言え、ここまでDeep Learningの研究が少ない分野が あるとは思っていなかった。改めてデータセットの大事さを再認識した。 16

17.

A deep learning method for pathological voice detection using convolutional deep belief networks • Wu, Huiyi and Soraghan, John and Lowit, Anja and Di Caterina, Gaetano (2018) , Interspeech • 「病理学的音声障害の検出分野ではDNNの研究はあまり行われていな い」 • 大規模データセットがないため。そこで、大域最小値を正確に達成す るための事前学習DNNのための教師なし手法としてRestricted Boltzmann Machine (RBM)を利用する。 • 提案手法:正常音声と病的音声のspectrogramを入力とするCNNを基 本としたアーキテクチャ。過学習を防ぐため、最初にCDBNでCNNの 重みを事前学習する。 17

18.

A deep learning method for pathological voice detection using convolutional deep belief networks • CDBNは重みを初期化し、システムをより強固にできるが、ロバスト性と 精度はトレードオフの関係にあるという課題は依然として残る。 18

19.

肺炎を声から診断する研究はあったのか? • Coswara -- A Database of Breathing, Cough, and Voice Sounds for COVID-19 Diagnosis (Sharma 2020) – COVID-19は咳と呼吸困難が顕著な症状だとして、呼吸音(咳。呼吸、音)のデータベ ースCoswaraを作成中。クラウドソーシングで収集中。 – 「呼吸器感染症では呼吸器系の物理構造変化が起こるため、咳音から病状分離が可能」 – 音声データは:呼吸(浅い/深い)、咳(軽い/キツい)、母音の持続音韻(æ I u:)、1~20桁ま でのカウント(普通に/速く) – 百日咳や慢性閉塞性疾患、結核菌などに関しての研究は既に他の研究で試みられており 、喘息等の検知で精度の高いものが存在(DNNではない) – COVID-19の検出・診断に関してはケンブリッジ、CMU、Wadhwani AI Institute、 EPFLのプロジェクトで研究中 ちなみに、arXivで4月時にはなかったこんな憑依jがされるようになっていた 19