【IT Text 自然言語処理の基礎】第2章:自然言語処理のための機械学習の基礎

451 Views

November 08, 23

スライド概要

自然言語処理の基礎の輪読会第3回の発表スライドです。
2023年10月19日(木) 18:30~

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

機械学習の基礎 前田康介 医学部人間健康科学科 0

2.

教師あり学習と教師あり学習 教師あり学習 入力と出力が与えられたとき、そこから入力と出力の関係を見つけ る。(例:画像が犬かネコかを判定する) →ここではこっちを説明する。 ⚫ 教師なし学習 データのみが与えられる。データの間にある特徴的な関係を探し出 すこと。(例:クラスタリング) ⚫ 1

3.

回帰と分類とルールベース 回帰 出力が量的変数(自動車の価格など)の場合。 ⚫ 分類 出力が質的変数(文章が肯定的か否定的)の場合。 出力先が二種類なら二値分類、三種類以上なら多値分類という。 ⚫ ルールベース 何かしらのルールに従って分類する。(例:文章にgoodがあれば肯定 的) 機械学習ではない。処理が複雑になることもある。 ⚫ 2

4.

特徴量表現 自然言語を機械学習の特徴量にそのままするのは難しい。 →言語を実数値ベクトルにしたい。 ⚫ 例: ある文章にgoodが入っている回数、boringが入っている回数、 veryが入っている回数からなる3次元ベクトルを作る。 This is a very good movie この文章の特徴量ベクトルは、(1, 0, 1)Tとなる。 3

5.

重みベクトル ⚫ 特徴量の出力への影響のようなもの。特徴量と同じ次元を持ち、 一般にwで表す。 ⚫ goodは肯定的だから正の重みを、boringは否定的だから負の重 みをとるなどとする。 ⚫ これと特徴量の積でその文章がどれくらい肯定的か否定的かを調 べられる。 →最適な重みをどうやって求める? 4

6.

パーセプトロン 二値分類問題(ラベルは0か1)において最適な重みを求めるアル ゴリズム ⚫ 以下では訓練データDを とし、予測をy^(i)と書く。 ⚫ アルゴリズム ① 重みwを0に初期化 ② 次の操作をT回繰り返す。 ・訓練データiを一つ選ぶ ・wTx(i)計算して、0以上なら1、そうでないなら0を返す。 ・ y^(i) とy(i)が異なるなら重みを次のように更新する。 ⚫ 5

7.

なぜこれで最適な重みが求まるのか 正しいラベルが1なのに、0と予測した場合 →更新された重みは となる。これを用いて、同じ データについてwTxを計算すると、 ⚫ 内積が大きくなる。 •正しいラベルが0なのに、1と予測した場合 →更新された重みは となる。内積は、 内積が小さくなる。 6

8.

パーセプトロンの問題点 ⚫ 線形分離な問題にしか使えない。→多層なら線形でなくても大丈 夫 ⚫ 信頼度が不明→ロジスティック回帰 7

9.

ロジスティック回帰 ⚫ 内積の代わりにシグモイド関数(下図)を用いてラベルの分類を行 う。 ⚫ 左辺は常に0以上1未満。→ラベルが1になる確率と見なせる。 ⚫ この値が0.5以上かどうかで、ラベルを振り分ける。 8

10.

確率的勾配降下法 •訓練データをランダムに一つ(複数の時もある)選び、それの対数 尤度を最大にするように重みwを更新する。 •確率的勾配降下法では勾配を用いて、次の式を用いて重みを徐々 に最適化する。 (導出は2.10節) 9

11.

なぜ全てのデータの尤度を用いないのか •実際に最大化したいのは次の式。 →Nが大きくなるとこれの勾配を計算するのが困難。 •確率的勾配降下法でも極小解にたどり着ける。 10

12.

ロジスティック回帰の確率的勾配降下法 1 wを0に初期化する。 2 以下の操作をT回繰り返す ・訓練データを一つ選ぶ ・ を計算する。 ・ (重みの更新) 11

13.

ロジスティック回帰とパーセプトロン •違いは重みの更新方法 パーセプトロン ロジスティック回帰 •ロジスティック回帰ではp(i)がy(i)に近ければ(ほとんど予測できて いる)重みはほとんど変化しない。 12

14.

ロジスティック回帰とパーセプトロン •違いは重みの更新方法 パーセプトロン ロジスティック回帰 •ロジスティック回帰ではp(i)がy(i)に近ければ(ほとんど予測できて いる)重みはほとんど変化しない。 13

15.

ソフトマックス回帰 •ロジスティックス回帰をK(>=3)個以上のクラス分類に拡張したも の。 •入力xがクラスj(j = 1, … ,K)に分類される確率を次の式で定義す る。 •wjはクラスjに関する重み、bjはバイアス 14

16.

ソフトマックス回帰の行列表記 とおくと , のj番目の要素は (各要素にソフトマックス関数を用いる) に一致する。 •ソフトマックス回帰のパラメータはWとb 15

17.

One-Hotベクトル •ロジスティック回帰では正解ラベルyは0か1で表されていた。 •ソフトマックス回帰では正解ラベルは次のK次元ベクトルで表す。 →要素の内一つが1で、そのほかは0であるようなベクトル。(OneHotベクトル) 16

18.

ソフトマックス回帰におけるパラメータの推定 •あるデータ{x, y}の尤度は で表せる。(One-Hotベクトルが1のクラスの確率) •この式をwj(Wの第j行)で偏微分すると、 となる。 17

19.

ソフトマックス回帰の確率的勾配降下法 •Wの第j行wjに確率的勾配降下法を適用すると次のようになる。 Pj(t)はt回目の反復におけるクラスjに分類される確率。 18