ae-2. 機械学習の基礎（教師なし学習，教師あり学習）

3.3K Views

January 29, 23

#機械学習 #機械学習の仕組み #学習 #検証 #iris データセット #教師有り学習 #教師無し学習 #予測 #クラスタリング #分離 #ディープラーニング #人工知能 #金子邦彦研究室

スライド概要

トピックス：機械学習, 機械学習の仕組み, 学習, 検証, Iris データセット, 教師有り学習, 教師無し学習, 予測, クラスタリング, 分離, ディープラーニング, 人工知能

ディープラーニング（スライドとプログラム例，Python を使用）（全１５回）
https://www.kkaneko.jp/ai/ae/index.html

金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html

kunihikokaneko

@6674398749

スライド一覧

金子邦彦（かねこくにひこ）福山大学・工学部・教授ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

dn-5. 顔検出，顔認識（Dlib, InsightFace を使用）

kunihikokaneko 15.6K

bt-7. Blender 3.0 の液体のアニメーション

blender 流体アニメーションドメインフローエフェクター液体ジオメトリ流入口ベイク

kunihikokaneko 5.8K

ae-9. 姿勢推定

姿勢推定人体の姿勢推定頭部の姿勢推定オブジェクトの姿勢推定ディープラーニング人工知能金子邦彦研究室

kunihikokaneko 5.5K

NVIDIA ドライバ, CUDA 11.6, cuDNN 8.4 のインストール (Windows 上) (2022年4月の最新版)

プログラミング nvidia cuda nvidia cudnn nvidia ドライバインストール windows

kunihikokaneko 4.9K

1. データベースとは，データベースシステムとは，情報とデータ

データベースデータベースシステム情報とデータデータの種類オープンデータ情報化社会

kunihikokaneko 3.7K

ae7ae-7. 予測・判断（時系列データ，リカレントニューラルネットワーク，LSTM）

時系列データリカレントニューラルネットワーク lstm ディープラーニング人工知能金子邦彦研究室

kunihikokaneko 2.9K

各ページのテキスト

2. 機械学習の基礎（教師なし学習，教師あり学習）（ディープラーニング，Python を使用）（全１５回） https://www.kkaneko.jp/cc/ae/index.html 金子邦彦 1

https://www.kkaneko.jp/cc/ae/index.html

アウトライン番号 2-1 2-2 2-3 2-4 2-5 項目復習機械学習の仕組み，学習と検証 Iris データセット教師あり学習と教師なし学習教師あり学習による予測（回帰，分類）教師なし学習によるクラスタリング，分離各自、資料を読み返したり、課題に取り組んだりも行う 2

機械学習 • 学習による上達の能力 • 訓練データを使用して，学習を行う 3

データサイエンス • データの正しい取り扱いと活用 • 統計，数学を基礎とする 4

ニューラルネットワークの種類 ① 自己符号化（オートエンコーダ）データを低次元の符号にマッピング学習：事前に、データを与えて学習 ② 分類や予測あるデータから別のデータを導く学習：事前に、データと正解（分類結果，予測結果）のペアを与えて学習 5

2-1. 機械学習の仕組み，学習と検証 6

一般のプログラミングデータ（入力）入力９１０１１１２１３１４プログラムコンピュータ処理結果入力９１０１１１２１３１４処理結果５００５００５００１０００１０００１０００あらゆる入力について正しい処理結果が得られるように，プログラムを作成し，テストする 7

機械学習での予測データ（入力）入力１０１３プログラム予測結果コンピュータ入力予測結果１０５００１３１０００訓練データ入力９１１１２１４正解５００５００１０００１０００訓練データにより，プログラムが自動調整されるニューラルネットワークの重み，決定木の形や分岐ルールなど 8

① 一般のプログラミングデータ（入力）・プログラムは人間が作成し，テストし，調整する．プログラム処理結果コンピュータ ② 機械学習での予測・学習による上達の能力データ（入力）プログラム訓練データコンピュータ予測結果 9

10.

機械学習での汎化訓練データ入力９１１１２１４正解５００５００１０００１０００汎化により，未知のデータについても予測ができるようになる訓練データの汎化入力７８９１０１１１２１３１４１５１６予測結果５００５００５００５００５００１０００１０００１０００１０００１０００ • 汎化は１００％成功するわけでない． • 訓練データとは別のデータ（検証データ）を用いて検証する 10

11.

「汎化は，プログラミングを補うもの」と考えられるようにも • ふつうのプログラミング：あらゆる事態を想定して，プログラムを作成 • 汎化：未知のデータについても処理できる 11

12.

AI による予測結果が正しいかの検証 • 訓練データ・・・学習用 • 検証データ・・・検証データで予測してみて，正解が得られるか確認 12

13.

機械学習だからと言って「必ず正解」ではない予測予測成功，予測失敗「はい」，「いいえ」の予測予測正解はいいいえはい予測成功予測失敗いいえ予測失敗予測成功 13

14.

2-2 Iris データセット 14

15.

アヤメ属 (Iris) 内花被片 • 多年草 • 世界に 150種. 日本に 9種. • 花被片は 6個外花被片 • 外花被片（がいかひへん） Sepal 3個（大型で下に垂れる） • 内花被片（ないかひへん） Petal 3個（直立する） 15

16.

Iris データセット Iris データセット（データ数は 50 × 3）のうち、先頭 10 行 ◆ 3種のアヤメの外花被辺、内花被片を計測 ◆ 種類も記録 setosa versicolor virginica ◆ データ数は 50 × 3 外花被片(Sepal) 内花被片(Petal) 種類の長さと幅の長さと幅作成者：Ronald Fisher 作成年：1936 特徴量ラベル 16

17.

Iris データセットの散布図縦軸：内花被片の幅横軸：内花被片の長さ次の３種類の分類済みのデータ 0: setosa 1: versicolor 2: virginica 17

18.

Iris データセットと配列（アレイ） [0 0 0 0 0 0 0 0 0 0 Iris データセット特徴量（数値）サイズ：150 × 4 ラベル（数値）サイズ：150 setosa → 0 versicolor → 1 virginia → 2 ラベルの数値化 18

19.

Iris データセットは Python でも利用可能ソースコード from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target print(X) print(y) 19

20.

2-3 教師あり学習と教師なし学習 20

21.

教師あり学習と教師無し学習訓練データに「正解」が含まれているか含まれていないか？ ① 教師あり学習訓練データ (x, y) を使用． (x, y) ・・・入力 x に対する正解 y の組 ② 教師なし学習訓練データ (x) を使用 (x) ・・・正解がない ※ 正解付きのデータと，正解が付かないデータが混在する場合「半教師あり学習」という 21

22.

教師あり学習と教師無し学習の主な用途 ① 教師あり学習 • 分類：何種類かに分類すること • 判別：２種類への分類 • 回帰：ある量から，別の量を予測するためのもの ② 教師なし学習 • クラスタリング：データの密集を見ることによる分析 • 分離（異常と正常の分離など） • 自己符号化（オートエンコード）：データの符号化の一種予測 22

23.

分類訓練データそれぞれの範囲を得る分類：何種類かに分類すること 23

24.

判別訓練データそれぞれの範囲を得る判別：２種類への分類 24

25.

回帰訓練データ予測に使用する線回帰：ある量から，別の量を予測するためのもの（例）身長と体重の関係，年齢と収入の関係 25

26.

クラスタリング訓練データ近くにあるデータを１つにまとめるクラスタリング：データの密集を見ることによる分析 26

27.

分離訓練データ集まっているものを正常と考え，それ以外は異常分離（異常と正常の分離など） 27

28.

自己符号化（オートエンコード）訓練データコード訓練データには含まれていなくても，現実にありえそうなデータを符号化（コード化） 28

29.

機械学習 ① 教師あり学習 • 決定木による予測 • ニューラルネットワークによる予測 • 線形回帰 • 線形判別 • SVM など ② 教師なし学習 • ニューラルネットワークによる自己符号化（オートエンコーダ） • クラスタリング • 次元削減など 29

30.

2-4 教師あり学習による予測（分類と回帰） 30

31.

教師あり学習訓練データ (x, y) を使用． (x, y) ・・・入力 x に対する正解 y の組入力：予測のもとになるデータ正解：予測の結果 31

32.

分類 • 学習により、「未知のデータを分類できる能力を獲得」と考えることもできる未知のデータ 32

33.

Iris （あやめ）の分類内花被片，外花被片の長さと幅から， Iris（あやめ）の分類を行う使用するデータ外花被片(Sepal) 内花被片(Petal) 種類の長さと幅の長さと幅入力正解 0: setosa 1: versicolor 2: virginica 33

34.

決定木による分類 • データから，自動で予測のためのルールを作る． • ルールを用いて，自動で予測（分類や回帰）を行う ④ ① ② ③ ④ ルール ② ① ③ 全体を縦または横に区切っていく 34

35.

ニューラルネットワークによる分類 ① ニューラルネットワーク作成 • １層目：ユニット数 20, 種類は relu • ２層目：ユニット数 3, 種類は softmax ユニット入力データ 4個の数字のまとまりユニット数: 20 種類: relu 全体で 2層ユニット出力データ 0, 1, 2 それぞれの確率ユニット数: 3 種類: softmax 35

36.

ニューラルネットワーク作成のプログラム例プログラムを使用し，ニューラルネットワークを作成 import tensorflow as tf 入力データは 4個の数字１層目のユニット数は 20 種類は relu def create_model(): return m = tf.keras.models.Sequential([ tf.keras.layers.Dense(units=20, input_dim=4, activation='relu'), tf.keras.layers.Dropout(0.1), tf.keras.layers.Dense(units=3, activation='softmax') ２層目のユニット数は 3 ]) 種類は softmax ニューラルネットワークの作成では，次を設定する • 入力データでの数値の個数 • ユニットの数（層ごと） • ユニットの種類（層ごと） 36

37.

ニューラルネットワークによる分類 ② ニューラルネットワークの学習の繰り返し学習の繰り返し回数は 50 訓練データの指定検証データの指定 37

38.

ニューラルネットワークによる分類 ③ 検証データ（あやめの花 75）による検証検証データの予測結果検証データについて，予測結果と正解を比べての精度 (accuracy) 38

39.

学習曲線学習の繰り返しによる分類の精度（accuracy）の変化実線：訓練データでの分類の精度点線：検証データでの分類の精度 39

40.

回帰訓練データ縦軸：内花被片の幅横軸：内花被片の長さ内花被片の長さ（petal_length）の値から，内花被片の幅（petal_width）の値を予測することを行う． 40

41.

2-5 教師なし学習によるクラスタリング，分離 41

42.

Iris データセットを用いたクラスタリング内花被片，外花被片の長さと幅で，クラスタリングを行う．クラスタ数 = 2 に設定クラスタ数 = 3 に設定 42