イラストで学ぶ音声認識 12章

>100 Views

August 26, 23

音声認識

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習や音声認識に関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 865.62kB)

関連スライド

各ページのテキスト

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析 • 荒木雅弘 :『イラストで学ぶ音声認識』（講談社, 2015年） • サポートページ

https://masahiroaraki.github.io/GuideToASR/

12.1 意味表現とは • 意味表現の必要性 • 音声対話システムが応答・動作するためには、入力音声を機械可読な表現に変換する必要がある • 意味表現の構成 • 発話タイプ • ユーザの意図に対応 • マルチドメインシステムの場合は、ドメインを特定する情報も含む • スロット情報 • 発話タイプに応じてスロットの組み合わせが決まるこれらを合わせて意味フレームとよぶ例） [ask_weather, location =京都, day = 明日]

12.1 意味表現とは • 検索言語による意味表現と検索実行

12.2 規則による意味解析処理 • 規則による意味解析の適用範囲 • 小語彙の音声対話システム • ユーザの入力発話が比較的定型的である場合 • 文法規則への意味表現生成規則の組み込み • 例）$文 → $表示 | $設定 | $検索 $検索 → $手段で検索 {[search, method=rules.latest()]} $手段 → 住所 {address} | 名称 {name} | 履歴 {history} • 構文木の葉から順に意味表現を組み上げてゆき、$文に対応する意味表現が出力となる

12.2 規則による意味解析処理

12.3 統計的な意味解析処理 • 統計的意味解析 • 生成モデルによる解法 • 意味表現をフラット化（コンセプト列による表現） • 発話タイプとスロット名を出現順に並べる • 例）「自宅に設定」→ M=[location, set_direction] コンセプトと単語列の対応の確率コンセプト列の N-グラム

12.3 統計的な意味解析処理 • 識別モデルによる解法 • 系列ラベリングによるコンセプトの抽出 • 例）O B-Loc B-Loc I-Loc O B-Loc I-Loc O O えっと京都京都駅から東京駅 O B-Tic B-Num O までくださいあ自由席２枚 • 単語列から、事後確率最大のラベル列を求めるです

12.3 統計的な意味解析処理

12.4 スマートフォンでの音声サービス • スマートフォンでの音声インタフェースの実現例 • 入力音声を端末側で特徴ベクトル系列に変換 • 特徴ベクトル系列をクラウド上の音声認識サーバに送信し、認識結果を得る • 認識結果をクラウド上の意味解析サーバに送信し、意味表現を得る • アプリへのコマンドであれば、アプリを起動し、操作を実行 • 検索等、専門エンジンへの入力であれば、各エンジンの対話インタフェースを呼び出す

10.

12.4 スマートフォンでの音声サービス • 「参照の揺れ」の問題 • 検索対象に対して、略語・通称など、正式名称以外で参照された場合でも対象を特定する必要がある • 検索エンジンのログから確率モデルを作成する方法が有効

11.

ニューラルネットワークによる意味解析 • Encoder-Decoderネットワークによる系列変換 [Kurata+ 2016] O O O O O B-toCity LSTM LSTM LSTM LSTM LSTM LSTM Emb Emb Emb Emb Emb Emb I need a ticket to Seattle

イラストで学ぶ音声認識 12章

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

フリーソフトではじめる機械学習入門 (第2版) 第7章

フリーソフトではじめる機械学習入門 (第2版) 第8章

フリーソフトではじめる機械学習入門 (第2版) 第2章

各ページのテキスト

荒木雅弘