【IT Text 自然言語処理の基礎】第2章：自然言語処理のための機械学習の基礎

819 Views

November 08, 23

#機械学習 #教師あり学習 #分類 #パーセプトロン #ロジスティック回帰 #ソフトマックス回帰 #確率的勾配降下法

スライド概要

自然言語処理の基礎の輪読会第3回の発表スライドです。
2023年10月19日(木) 18:30～

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.3K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.1K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.4節）

京都大学人工知能研究会KaiRA 12.4K

各ページのテキスト

機械学習の基礎前田康介医学部人間健康科学科 0

教師あり学習と教師あり学習教師あり学習入力と出力が与えられたとき、そこから入力と出力の関係を見つける。(例:画像が犬かネコかを判定する) →ここではこっちを説明する。 ⚫ 教師なし学習データのみが与えられる。データの間にある特徴的な関係を探し出すこと。(例:クラスタリング) ⚫ 1

回帰と分類とルールベース回帰出力が量的変数(自動車の価格など)の場合。 ⚫ 分類出力が質的変数(文章が肯定的か否定的)の場合。出力先が二種類なら二値分類、三種類以上なら多値分類という。 ⚫ ルールベース何かしらのルールに従って分類する。(例:文章にgoodがあれば肯定的) 機械学習ではない。処理が複雑になることもある。 ⚫ 2

特徴量表現自然言語を機械学習の特徴量にそのままするのは難しい。 →言語を実数値ベクトルにしたい。 ⚫ 例: ある文章にgoodが入っている回数、boringが入っている回数、 veryが入っている回数からなる3次元ベクトルを作る。 This is a very good movie この文章の特徴量ベクトルは、(1, 0, 1)Tとなる。 3

重みベクトル ⚫ 特徴量の出力への影響のようなもの。特徴量と同じ次元を持ち、一般にwで表す。 ⚫ goodは肯定的だから正の重みを、boringは否定的だから負の重みをとるなどとする。 ⚫ これと特徴量の積でその文章がどれくらい肯定的か否定的かを調べられる。 →最適な重みをどうやって求める? 4

パーセプトロン二値分類問題(ラベルは0か1)において最適な重みを求めるアルゴリズム ⚫ 以下では訓練データDをとし、予測をy^(i)と書く。 ⚫ アルゴリズム ① 重みwを0に初期化 ② 次の操作をT回繰り返す。・訓練データiを一つ選ぶ・wTx(i)計算して、0以上なら1、そうでないなら0を返す。・ y^(i) とy(i)が異なるなら重みを次のように更新する。 ⚫ 5

なぜこれで最適な重みが求まるのか正しいラベルが1なのに、0と予測した場合 →更新された重みはとなる。これを用いて、同じデータについてwTxを計算すると、 ⚫ 内積が大きくなる。 •正しいラベルが0なのに、1と予測した場合 →更新された重みはとなる。内積は、内積が小さくなる。 6

パーセプトロンの問題点 ⚫ 線形分離な問題にしか使えない。→多層なら線形でなくても大丈夫 ⚫ 信頼度が不明→ロジスティック回帰 7

ロジスティック回帰 ⚫ 内積の代わりにシグモイド関数(下図)を用いてラベルの分類を行う。 ⚫ 左辺は常に0以上1未満。→ラベルが1になる確率と見なせる。 ⚫ この値が0.5以上かどうかで、ラベルを振り分ける。 8

10.

確率的勾配降下法 •訓練データをランダムに一つ(複数の時もある)選び、それの対数尤度を最大にするように重みwを更新する。 •確率的勾配降下法では勾配を用いて、次の式を用いて重みを徐々に最適化する。 (導出は2.10節) 9

11.

なぜ全てのデータの尤度を用いないのか •実際に最大化したいのは次の式。 →Nが大きくなるとこれの勾配を計算するのが困難。 •確率的勾配降下法でも極小解にたどり着ける。 10

12.

ロジスティック回帰の確率的勾配降下法 1 wを0に初期化する。 2 以下の操作をT回繰り返す・訓練データを一つ選ぶ・を計算する。・ (重みの更新) 11

13.

ロジスティック回帰とパーセプトロン •違いは重みの更新方法パーセプトロンロジスティック回帰 •ロジスティック回帰ではp(i)がy(i)に近ければ(ほとんど予測できている)重みはほとんど変化しない。 12

14.

ロジスティック回帰とパーセプトロン •違いは重みの更新方法パーセプトロンロジスティック回帰 •ロジスティック回帰ではp(i)がy(i)に近ければ(ほとんど予測できている)重みはほとんど変化しない。 13

15.

ソフトマックス回帰 •ロジスティックス回帰をK(>=3)個以上のクラス分類に拡張したもの。 •入力xがクラスj(j = 1, … ,K)に分類される確率を次の式で定義する。 •wjはクラスjに関する重み、bjはバイアス 14

16.

ソフトマックス回帰の行列表記とおくと , のj番目の要素は (各要素にソフトマックス関数を用いる) に一致する。 •ソフトマックス回帰のパラメータはWとb 15

17.

One-Hotベクトル •ロジスティック回帰では正解ラベルyは0か1で表されていた。 •ソフトマックス回帰では正解ラベルは次のK次元ベクトルで表す。 →要素の内一つが1で、そのほかは0であるようなベクトル。(OneHotベクトル) 16

18.

ソフトマックス回帰におけるパラメータの推定 •あるデータ{x, y}の尤度はで表せる。(One-Hotベクトルが1のクラスの確率) •この式をwj(Wの第j行)で偏微分すると、となる。 17

19.

ソフトマックス回帰の確率的勾配降下法 •Wの第j行wjに確率的勾配降下法を適用すると次のようになる。 Pj(t)はt回目の反復におけるクラスjに分類される確率。 18