ae-3. ディープラーニングの基礎

1K Views

January 29, 23

ディープラーニングの仕組みディープラーニングの歴史ディープニューラルネットワークの種類画像データディープラーニングのモデル学習済みモデルディープラーニング人工知能金子邦彦研究室

スライド概要

トピックス：ディープラーニングの仕組み, ディープラーニングの歴史, ディープニューラルネットワークの種類, 画像データ, ディープラーニングのモデル, 学習済みモデル, ディープラーニング, 人工知能

ディープラーニング（スライドとプログラム例，Python を使用）（全１５回）
https://www.kkaneko.jp/ai/ae/index.html

金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html

kunihikokaneko

@6674398749

スライド一覧

金子邦彦（かねこくにひこ）福山大学・工学部・教授ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pptx - 3.62MB)

ダウンロード(pdf - 2.18MB)

関連スライド

各ページのテキスト

3. ディープラーニングの基礎（ディープラーニング，Python を使用）（全１５回） https://www.kkaneko.jp/cc/ae/index.html 金子邦彦 1

https://www.kkaneko.jp/cc/ae/index.html

アウトライン番号項目 3-1 3-2 3-3 復習ディープラーニングの概要ディープラーニングの仕組みディープラーニングの歴史，ディープニューラルネットワークの種類 3-4 画像データ 3-5 ディープラーニングのモデル，学習済みモデル 3-6 Python の関数各自、資料を読み返したり、課題に取り組んだりも行う 2

機械学習 • 学習による上達の能力 • 訓練データを使用して，学習を行う 3

機械学習が目標とする作業ルール化，プログラム化が難しい作業 • 直感 • 主観 • 経験 → 人間にたやすいしかし，プログラム化は困難 4

① 一般のプログラミングデータ（入力）・プログラムは人間が作成し，テストし，調整する．プログラム処理結果コンピュータ ② 機械学習での予測・学習による上達の能力データ（入力）プログラム訓練データコンピュータ予測結果 5

機械学習での汎化訓練データ入力９１１１２１４正解５００５００１０００１０００汎化により，未知のデータについても予測ができるようになる訓練データの汎化入力７８９１０１１１２１３１４１５１６予測結果５００５００５００５００５００１０００１０００１０００１０００１０００ • 汎化は１００％成功するわけでない． • 訓練データとは別のデータ（検証データ）を用いて検証する 6

「汎化は，プログラミングを補うもの」と考えられるようにも • ふつうのプログラミング：あらゆる事態を想定して，プログラムを作成 • 汎化：未知のデータについても処理できる 7

ニューラルネットワークの原理ニューラルネットワークのユニットは，数理により動く ① 入力は複数 ② 入力を重みづけし合計をとる ③ その合計から出力値を得る 0.3 × 0.1 -0.5 × 0.8 ⇒ 0.03 ⇒ -0.4 0.2 × -0.5 ⇒ -0.1 合計 -0.47 合計に応じた出力値 0.3846 8

3-1. ディープラーニングの概要 9

10.

ディープニューラルネットワーク • ディープニューラルネットワークは，層が深い（層の数が多い）ニューラルネットワーク層の数が少ない（浅い）層の数が多い（深い） 10

11.

ディープニューラルネットワーク • 層が浅い（層の数が少ない）ニューラルネットワークを組み合わせることもあるニ３ュ層ーのラルネットワークニ３ュ層ーのラルネットワークニ２ュ層ーのラルネットワーク合計で８層（さまざまな組み合わせがありえる） 11

12.

ディープラーニング（深層学習） • ディープニューラルネットワークによる学習層の数が少ない（浅い）層の数が多い（深い） 12

13.

機械学習へのさまざまなアプローチニューラルネットワーク • ディープラーニング • 層の浅い（層の数が少ない）ニューラルネットワークの利用それ以外 • 決定木 • 線形回帰 • クラスタリングなど多数ディープラーニングは，他を性能・機能で上回る場合があるが，ディープラーニングだけで済むというわけ 13 ではない

14.

ディープラーニングへの期待 • 難問にチャレンジディープラーニング以外の方法では難しい問題にチャレンジ 14

15.

ディープラーニングへの期待さまざまなレベルのパターン線や点のレベル目，鼻，耳のレベル顔の構造のレベル MIT Introduction to Deep Learning | 6.S191, https://www.youtube.com/watch?v=5tvmMX8r_OM の「Why Deep Learning」のページ 15

https://www.youtube.com/watch?v=5tvmMX8r_OM

16.

ディープラーニングへの期待「ディープニューラルネットワークの利用により，さまざまなレベルのパターンを抽出・認識できるようになる」という考える場合も「より出力に近い層では，より高次のパターンを認識したい」という考え方も 16

17.

3-2. ディープラーニングの仕組み 17

18.

ニューラルネットワーク • 機械学習の能力を持つ． • コンピュータで動作． • ユニットがつながり，ニューラルネットネットワークを構成．ユニットユニットユニットユニット間ユニット間の結合の結合入力データ出力データ 18

19.

ニューラルネットワークの仕組み • 前の層から結果を受けとって，次の層へ結果を渡す〇〇〇〇〇〇〇〇〇〇〇〇入力層〇はニューロン，線は結合〇〇〇〇〇（他の結合は書〇〇いていない）〇（他の結合は書〇〇〇いていない）〇〇〇全結合のときは，〇〇〇次層の全ニュー全結合のときは，〇〇ロンと結合する次層の全ニュー〇〇ロンと結合する〇〇〇〇〇出力層中間層 19

20.

ニューラルネットワークのユニットニューラルネットワークのユニットは，数理により動く ① 入力は複数 ② 入力を重みづけし合計をとる ③ その合計から出力値を得る・合計に，バイアスという値を 1 2 3 4 5 6 7 8 9 入力 1 2 3 4 5 6 7 8 9 1 1 1 0 1 1 0 0 1 白黒の画像（画素は 0 または 1）足し引きしたあと，活性化関数が適用され出力値が得られる．・活性化関数はさまざまな種類重み w1 ～ w9 w1 w2 w3 w4 w5 w6 w7 w8 w9 合計シグモイドユニット 0.9 0.8 0.7 合計は， 0.6 1 × w1 + 1 × w2 + 1 × w3 + 0 × w4 + 1 × w5 + 1 × w6 + 0 × w7 + 0 × w8 + 1 × w9 0.3 ReLU （2011年発表） 0.5 0.4 0.2 0.1 0 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 20

21.

1 2 活性化関数重み 1, 1 0, 1 1, 0 1 1 1 2.0 ReLU 1.0 0 0 ユニット -2.0 -1.0 0.0 1.0 -1重み 2.0 1.0 0 0 2 0, 0 入力 1 正解 2.0 -2.0 -1.0 0.0 1.0 2.0 重み ReLU + バイアス（バイアスは -1） 1 1 2.0 訓練データユニット 1.0 0 -2.0 -1.0 0.0 1.0 2.0 ReLU + バイアス（バイアスは +1） 21

22.

それぞれのユニットが「特定のパターンを識別している」と考えることもできる 1 2 1, 1 0, 1 1, 0 1 0 0 1 1 2.0 ReLU 1.0 0 ユニットが識別するパターン -2.0 -1.0 0.0 -1 1 2.0 2.0 1.0 0 2 0, 0 1.0 1 1 ユニットが識別するパターン -2.0 -1.0 0.0 1.0 2.0 ユニットが識別するパターン ReLU + バイアス（バイアスは -1） 2.0 1.0 0 -2.0 -1.0 0.0 1.0 2.0 ReLU + バイアス（バイアスは +1） 22

23.

学習では，結合の重みとバイアスの調整により，訓練データのパターンをより正確に認識できるようになる 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 1 1 1 0 1 1 0 0 1 重み 1 1 1 0 1 1 0 0 1 合計ユニット高い活性度 23

24.

ニューラルネットワークでの教師あり学習入力結果 0.8 正解 1 結果 0.4 正解 0 誤差誤差が少なくなるように，結合の重みとバイアスを調整＝ニューラルネットワークの学習 24

25.

バックプロパゲーション１層目の重み２層目の重み３層目の重み ① まず，３層目の重みを調整して，誤差を最小化 ② ①の次に，２層目の重みを調整して，誤差を最小化 ③ ②の次に，１層目の重みを調整して，誤差を最小化重みの変化のみで学習を行う（学習の途中で，ユニットの種類や数が変化するわけではない） 25

26.

ニューラルネットワークの教師あり学習 • 訓練データ（学習のためのデータ）を使用 • 学習は自動で行われる ① 訓練データにより，ニューラルネットから結果を出し，正解との誤差を得る ② ユニット間の結合の重みの調整により、誤差を減らす 26

27.

3-3. ディープラーニングの歴史，ディープニューラルネットワークの種類 27

28.

2011年までの常識機械学習の難問：組み合わせが多すぎる場合それほど難しくない問題難しい問題 … ２マスのパターン（４通り）３マスのパターン（８通り）１００マスのパターン 1267650600228229401496703205376 通り（およそ１兆の１兆の１２６万倍）組み合わせが多い 28

29.

2011年までの常識機械学習の難問：組み合わせが多すぎる場合 • カラー画像: サイズ 32×32 の場合 → 画素数: 32 × 32 × 3，階調 256 約 12000 … 000 通り 7397個の 0 • ステレオ音声: 10秒間，サンプリング周波数 44100Hz の場合 → 10 × 44100，階調 256 約 1000 … 000 通り 1062033個の 0 29

30.

組み合わせが大きいと何が問題なのか？ • 計算時間（実はそれほど大問題ではない） • 汎化に失敗し，過学習が発生 30

31.

32.

過学習学習曲線学習の繰り返しによる分類の精度（accuracy）の変化精度良い訓練データ精度良い訓練データ検証データ悪い悪い学習の繰り返し回数過学習なし検証データ学習の繰り返し回数過学習あり 32

33.

2011年までの常識このページは、私の個人的な見解です • 汎化の失敗，過学習が難問であり，「ニューラルネットワークは面白いが，実用性は？」と考えられる場合も • ニューラルネットワークでは，ユニットの数が少ないほど，汎化が成功する傾向がある • そうなると，ニューラルネットワークの層の数を増やすことは，想定外とも 33

34.

2012年の進展 • 従来からある技術と，新技術の組み合わせ【新技術の例】 • 非線形性の正規化 (rectified nonlinearity), 2009年 • 活性化関数の ReLU, 2011年 • ドロップアウトさらなる進展： He の初期化, 2015年など • 巨大な訓練データの利用，高速に学修を行う技術 → 過学習を抑止しながら，ディープラーニングが役に立つ場合があることの発見 34

35.

将来のコンピュータの進展年コンピュータで扱えるユニット数の規模神経細胞の数（推定値） • カタツムリ 11,000 2010年 100,000個 • ロブスター 100,000 2020年 2,000,000個 • アリ 250,000 2030年 50,000,000個 2040年 1,000,000,000個 • カエル 16,000,000 2050年 20,000,000,000個所説あります 2055年ごろには、数は人間を上回る • ハツカネズミ 71,000,000 • タコ 500,000,000 • ネコ 760,000,000 • ヒト 86,000,000,000 • アフリカゾウ 257,000,000,000 「数があればよい」というわけではありません Wikipeida の記事: https://ja.wikipedia.org /wiki/%E5%8B%95%E7%89%A9%E3%81%AE% E3%83%8B%E3%83%A5%E3%83%BC%E3%83%AD%E3%83%B3%E3% 81%AE%E6%95%B0%E3%81%AE%E4%B8%80%E8%A6%A7 より 35

36.

教師なし学習のニュース (2011年） • 教師なし学習（この画像が「人の画像である」，「猫である」という正解がない） • 訓練データ: YouTube からランダムに選ばれた画像 1000万枚 • 1000台のマシンで，3日間の学習 • 9層のニューラルネットワークを使用高次のパターンを認識できる能力を獲得人の顔のみに反応するユニット猫の顔のみに反応するユニット特定の線や点に反応するユニット目や鼻や口に反応するユニット文献: Building high-level features using large scale unsupervised learning Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean, Andrew Y. Ng, arXiv 1112.6209, 2011, last revised 2012. 36

37.

教師あり学習のニュース (2012年） • 教師あり学習の AlexNet で画像分類を行う • 訓練データ: 画像約 100万枚以上（ImageNet データセット， 22000種類に分類済み） • ILSVRCコンペティション: 画像を 1000 種類に分類 • ディープニューラルネットワークを使用畳み込み, max pooling, 正規化(LCN), softmax, ReLU, ドロップアウト L C N 畳み込み畳み込み畳み込み max pooling 畳み込み max pooling L C N max pooling 畳み込み全結合文献: ImageNet classification with deep convolutional neural networks, Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, NIPS'12, 2012. 全結合全結合 37

38.

画像分類の精度の向上 • ディープラーニングの進展 • 画像分類は，場合によっては，AI が人間と同等の精度とも考えらるように ImageNet データセットの画像分類の結果画像分類の誤り率 (top 5 error) 人間: 5.1 % PReLU による画像分類: 4.9 % （2015年発表）文献: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification arXiv:1502.01852, 2015. 38

39.

ディープラーニング • 学習による上達の能力 • 訓練データを使用して，学習を行う • 巨大な訓練データ，深い層のニューラルネットワークの利用により，良好な性能・機能を発揮する場合も 39

40.

3-4 画像データ 40

41.

画像と画素画像それぞれの格子が画素 41

42.

画像の種類カラー画像輝度と色の情報濃淡画像輝度のみの情報 42

43.

濃淡画像でのコード化画像の輝度の情報例えば：黒＝０，暗い灰色＝１，明るい灰色＝２，白＝３のようにコード化画素輝度が４段階の場合：高さ: 8 0 幅: 8 1 2 3 43

44.

カラー画像の成分 • R（赤）成分，G（緑）成分，B（青）成分で考える場合 R（赤）成分 G（緑）成分 B（青）成分 • 輝度成分，色成分で考える場合輝度成分色成分 44

45.

R（赤）成分，G（緑），B（青）成分で考える場合 R（赤）成分画素ごとに１つの数値 G（緑）成分画素ごとに１つの数値 B（青）成分画素ごとに１つの数値すべてあわせて，画素ごとに３つの数値 45

46.

輝度成分，色成分で考える場合輝度成分画素ごとに１つの数値色成分画素ごとに２つの数値すべてあわせて，画素ごとに３つの数値 46

47.

3-5 ディープラーニングのモデル，学習済みモデル 47

48.

ディープラーニングのモデルディープラーニングのモデルは，ディープニューラルネットワークのこと • 層が深い（層の数が多い） • たくさんの種類の層を組み合わせることが多い L C N C N N C N N C N N max pooling C N N max pooling L C N max pooling C N N 全結合全結合全結合 48

49.

ImageNet データセット • カラー画像約140万枚（最新版） • 1000 種類に分類済み • インターネットで公開されている • 画像分類を行う AI の訓練データとして利用できる文献: ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, Li Fei-Fei 49

50.

ディープラーニングの学習済みモデル • 有名なデータ（ImageNet データセット）で学習済みのモデルは，インターネットで公開されていることが多い【転移学習の考え方】 ① 学習済みのモデルがある ImageNet データセットで学習済みの場合には，所定の 1000種類に画像分類を行うように学習済み ② 結合の重みを凍結，などを行う ③ ①とは別の画像分類に使えるように，最終層を交換．そして，最終層の結合の重みについてのみ学習 50

51.

3-6 式の抽象化と関数 51

52.

式の抽象化 100 * 1.1 150 * 1.1 400 * 1.1 類似した複数の式 a * 1.1 変数 a を使って，複数の式を１つにまとめる（抽象化） 52

53.

関数 100 * 1.1 a * 1.1 150 * 1.1 400 * 1.1 類似した複数の式変数 a を使って，複数の式を１つにまとめる（抽象化）式「a * 1.1」を含む関数 foo を定義関数 foo を使用． 100, 150, 400 は引数 53

54.

関数 • この関数の本体は「return a * 1.1」 • この関数は，式「a * 1.1」に，名前 foo を付けたものと考えることもできる 54

55.

式の抽象化と関数抽象化前類似した複数の式実行結果抽象化後関数の定義と使用同じ実行結果になる 55

56.

１つ目の演習 • ニューラルネットワークを，足し算，掛け算， max （2つの値のうち最大値），関数で作る https://colab.research.google.com/drive/1k3YbTbQkZXlWw91DBXoHdU1_wd7LbFF3?usp=sharing 1, 1 1 0, 1 0 1, 0 0 0, 0 1 56

https://cerezo.fukuyama-u.ac.jp/ct/link_iframe_balloon?url=https://colab.research.google.com/drive/1k3YbTbQkZXlWw91DBXoHdU1_wd7LbFF3?usp=sharing

57.

２つ目の演習 • 画像分類の実行を行うプログラム • ImageNet データセットで学習済みのディープニューラルネットワークを使用 https://colab.research.google.com/drive/1TM0bbEUcAyHhsWzlgfetO-WYaf9tcnJE?usp=sharing 57

https://colab.research.google.com/drive/1TM0bbEUcAyHhsWzlgfetO-WYaf9tcnJE?usp=sharing

ae-3. ディープラーニングの基礎

kunihikokaneko

関連スライド

dn-5. 顔検出， 顔認識（Dlib, InsightFace を使用）

bt-7. Blender 3.0 の液体のアニメーション

NVIDIA ドライバ, CUDA 11.6, cuDNN 8.4 のインストール (Windows 上) (2022年4月の最新版)

ae-9. 姿勢推定

1. データベースとは，データベースシステムとは，情報とデータ

ae7ae-7. 予測・判断（時系列データ，リカレントニューラルネットワーク，LSTM）

各ページのテキスト

dn-5. 顔検出，顔認識（Dlib, InsightFace を使用）