ae-4. ディープラーニングでの物体認識，画像分類

828 Views

January 29, 23

#画像理解 #畳み込み #畳み込みニューラルネットワーク #全結合層 #畳み込み層 #ディープラーニング #人工知能 #金子邦彦研究室

スライド概要

トピックス：画像理解, 畳み込み, 畳み込みニューラルネットワーク, 全結合層, 畳み込み層, ディープラーニング, 人工知能

ディープラーニング（スライドとプログラム例，Python を使用）（全１５回）
https://www.kkaneko.jp/ai/ae/index.html

金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html

kunihikokaneko

@6674398749

スライド一覧

金子邦彦（かねこくにひこ）福山大学・工学部・教授ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

dn-5. 顔検出，顔認識（Dlib, InsightFace を使用）

kunihikokaneko 15.5K

bt-7. Blender 3.0 の液体のアニメーション

blender 流体アニメーションドメインフローエフェクター液体ジオメトリ流入口ベイク

kunihikokaneko 5.8K

ae-9. 姿勢推定

姿勢推定人体の姿勢推定頭部の姿勢推定オブジェクトの姿勢推定ディープラーニング人工知能金子邦彦研究室

kunihikokaneko 5.5K

NVIDIA ドライバ, CUDA 11.6, cuDNN 8.4 のインストール (Windows 上) (2022年4月の最新版)

プログラミング nvidia cuda nvidia cudnn nvidia ドライバインストール windows

kunihikokaneko 4.9K

1. データベースとは，データベースシステムとは，情報とデータ

データベースデータベースシステム情報とデータデータの種類オープンデータ情報化社会

kunihikokaneko 3.7K

ae-2. 機械学習の基礎（教師なし学習，教師あり学習）

機械学習機械学習の仕組み学習検証 iris データセット教師有り学習教師無し学習予測クラスタリング分離ディープラーニング人工知能金子邦彦研究室

kunihikokaneko 3.3K

各ページのテキスト

4. ディープラーニングでの物体認識，画像分類（ディープラーニング，Python を使用）（全１５回） https://www.kkaneko.jp/cc/ae/index.html 金子邦彦 1

https://www.kkaneko.jp/cc/ae/index.html

画像分類での教師あり学習 mammal placental carnivore canine dog など分類結果（正解）画像訓練データ人工知能 person bicycle 画像分類文献 J. Deng, W. Dong, R. Socher, L. -J. Li, Kai Li and Li Fei-Fei, "ImageNet: A large-scale hierarchical image database," 2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009, pp. 248-255, doi: 10.1109/CVPR.2009.5206848. 2

アウトライン番号項目 4-1 4-2 4-3 4-4 4-5 復習コンピュータによる画像理解畳み込みの仕組み画像での畳み込み畳み込み層と全結合層畳み込みニューラルネットワーク（CNN）の仕組み 4-6 畳み込みニューラルネットワーク（CNN）の作各自、資料を読み返したり、課題に取り組んだりも行う成 3

ディープラーニング • 学習による上達の能力 • 訓練データを使用して，学習を行う • 巨大な訓練データ，深い層のニューラルネットワークの利用により，良好な性能・機能を発揮する場合も 4

ディープニューラルネットワーク • ディープニューラルネットワークは，層が深い（層の数が多い）ニューラルネットワーク層の数が少ない（浅い）層の数が多い（深い） 5

画像分類の精度の向上 • ディープラーニングの進展 • 画像分類は，場合によっては，AI が人間と同等の精度とも考えらるように ImageNet データセットの画像分類の結果画像分類の誤り率 (top 5 error) 人間: 5.1 % PReLU による画像分類: 4.9 % （2015年発表）文献: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification arXiv:1502.01852, 2015. 6

ニューラルネットワークの仕組み • 前の層から結果を受けとって，次の層へ結果を渡す〇〇〇〇〇〇〇〇〇〇〇〇入力層〇はニューロン，線は結合〇〇〇〇〇（他の結合は書〇〇いていない）〇（他の結合は書〇〇〇いていない）〇〇〇全結合のときは，〇〇〇次層の全ニュー全結合のときは，〇〇ロンと結合する次層の全ニュー〇〇ロンと結合する〇〇〇〇〇出力層中間層 7

ニューラルネットワークのユニットニューラルネットワークのユニットは，数理により動く ① 入力は複数 ② 入力を重みづけし合計をとる ③ その合計から出力値を得る・合計に，バイアスという値を 1 2 3 4 5 6 7 8 9 入力 1 2 3 4 5 6 7 8 9 1 1 1 0 1 1 0 0 1 白黒の画像（画素は 0 または 1）足し引きしたあと，活性化関数が適用され出力値が得られる．・活性化関数はさまざまな種類重み w1 ～ w9 w1 w2 w3 w4 w5 w6 w7 w8 w9 合計シグモイドユニット 0.9 0.8 0.7 合計は， 0.6 1 × w1 + 1 × w2 + 1 × w3 + 0 × w4 + 1 × w5 + 1 × w6 + 0 × w7 + 0 × w8 + 1 × w9 0.3 ReLU （2011年発表） 0.5 0.4 0.2 0.1 0 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 8

1 2 活性化関数重み 1, 1 0, 1 1, 0 1 1 1 2.0 ReLU 1.0 0 0 ユニット -2.0 -1.0 0.0 1.0 -1重み 2.0 1.0 0 0 2 0, 0 入力 1 正解 2.0 -2.0 -1.0 0.0 1.0 2.0 重み ReLU + バイアス（バイアスは -1） 1 1 2.0 訓練データユニット 1.0 0 -2.0 -1.0 0.0 1.0 2.0 ReLU + バイアス（バイアスは +1） 9

10.

それぞれのユニットが「特定のパターンを識別している」と考えることもできる 1 2 1, 1 0, 1 1, 0 1 0 0 1 1 2.0 ReLU 1.0 0 ユニットが識別するパターン -2.0 -1.0 0.0 -1 1 2.0 2.0 1.0 0 2 0, 0 1.0 1 1 ユニットが識別するパターン -2.0 -1.0 0.0 1.0 2.0 ユニットが識別するパターン ReLU + バイアス（バイアスは -1） 2.0 1.0 0 -2.0 -1.0 0.0 1.0 2.0 ReLU + バイアス（バイアスは +1） 10

11.

4-1. コンピュータによる画像理解 11

12.

コンピュータによる画像理解コンピュータが画像を理解する 12

13.

コンピュータによる画像理解 • 一般的な画像（実験室で撮影などの制約が無い） • さまざまな応用：スマホ，デジカメ，自動車，ロボット • さまざまな種類：画像分類，物体検出，セグメンテーション，超解像，３次元化など 13

14.

① 画像分類画像分類の結果は，ラベルと確率 ※ ５つの候補 (top 5) が表示されている 14

15.

② 物体検出 car person bicycle バウンディングボックス，ラベルを得るバウンディングボックスは，物体を囲む最小のボックス（四角形） 15

16.

③ セグメンテーション物体の形を画素単位で抜き出し，ラベルも得る 16

17.

画像理解の主な種類 ① 画像分類「何があるか」を理解 person bicycle person ② 物体検出場所と大きさも理解 ③ セグメンテーション画素単位で領域を理解 bicycle 17

18.

4-2. 畳み込みの仕組み 18

19.

畳み込み畳み込みは，あるデータを移動しながら，カーネルと重ね合わせる．重ね合わせの結果は１つの値になる．データ移動カーネルと同じ長さに切り出しカーネル重ね合わせ（掛け算と合計） 19

20.

畳み込みの例データ 0 1 0 1 0 0 1 1 1 0 この部分を切り出すカーネル 1 0 1 0×1 1×0 0×1 0 重ね合わせの結果： 0×1 + 1×0 + 0×1 = 0 20

21.

畳み込みの例移動 0 1 0 1 0 0 1 1 1 1 0 1 1 0 1 1 0 1 0×1 1×0 0×1 1 0 1×1 0×0 0×1 1 1×1 0×0 1×1 1 0 1 2 0 1×1 1×0 1×1 1 0×1 0×0 0×1 1 0×1 1×0 0×1 0 0 1 1 0 0 1 0 1 1×1 1×0 0×1 1 0×1 1×0 1×1 1 1 2 1 21

22.

畳み込み畳み込みは，「特定のパターンに強く反応する」と考えることもできる畳み込み結果が大きくなる部分データ 0 1 0 0 1 0 2 1 0 0 1 1 1 0 1 1 1 2 1 0 カーネル 1 畳み込み結果 22

23.

畳み込みの用途人工知能の他，画像，音声，その他信号の処理などに広く応用されている • パターンの分析データの中からパターンを発見 • 周波数での分析，処理特定の周波数のみ抜き出すなど 23

24.

畳み込みのまとめ • 畳み込みは，あるデータを移動しながら，カーネルと重ね合わせる． • カーネルは値の並び（例） 0 1 0 • 重ね合わせは，同じ長さの２つのデータについて，要素同士の掛け算の合計． 24

25.

畳み込みを行う Python プログラムの例 https://colab.research.google.com/drive/1pcdD-I5-2VbLizKb3egJIQWXn8tBfOuK?usp=sharing 25

https://colab.research.google.com/drive/1pcdD-I5-2VbLizKb3egJIQWXn8tBfOuK?usp=sharing

26.

4-3. 画像での畳み込み 26

27.

画像の畳み込みカーネル（３×３マス）元画像（５×５マス）出典: https://serokell.io/blog/introduction-to-convolutional-neural-networks 27

28.

画像での畳み込み元画像（５×５マス）カーネル（３×３マス）切り出した部分とカーネルの掛け算の合計 0×1 1×0 1×1 0×1 1×1 1×1 0×0 1×0 1×1 合計: 4 （これが畳み込み結果）切り出し（３×３マス）カーネルと同じサイズで切り出す畳み込み 28

29.

画像での畳み込みカーネル（３×３マス）元画像（５×５マス） 0×1 1×0 1×1 0×1 1×1 1×1 0×0 1×0 1×1 4 3 合計: 4 切り出し（３×３マス）切り出し領域を横にずらす 1×1 1×0 0×1 1×1 1×1 0×1 1×0 1×0 0×1 畳み込み結果合計: 3 畳み込み結果 29

30.

画像での畳み込みカーネル（３×３マス）元画像（５×５マス）画像全体について 4 畳み込み 3 5 4 3 5 4 3 5 畳み込み結果切り出し（３×３マス）切り出し領域を縦横にずらす 30

31.

画像の畳み込みを行う Python プログラムの例 https://colab.research.google.com/drive/1pcdD-I5-2VbLizKb3egJIQWXn8tBfOuK?usp=sharing 31

https://colab.research.google.com/drive/1pcdD-I5-2VbLizKb3egJIQWXn8tBfOuK?usp=sharing

32.

画像の畳み込みの応用例 • 人工知能以外でも，ぼかし，エッジ抽出などさまざまな処理で，畳み込みを使用できる畳み込みによるぼかし畳み込みによるエッジ抽出 32

33.

4-4. 畳み込み層と全結合層 33

34.

濃淡画像（モノクロ画像）とニューラルネットワークモノクロ画像（濃淡画像）を扱うとき，入力層では，１つの画素に，１つのユニットになる．〇はニューロン，線は結合画像〇〇〇〇〇〇〇〇〇〇〇〇入力層（他の結合は書いていない）〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇（他の結合は書いていない）〇〇〇〇〇〇〇〇〇〇 34

35.

全結合層 • 全結合層のユニットは，前の層のすべてのユニットと結合している〇〇〇〇〇〇〇〇〇〇〇〇前の層（他の結合は書いていない）〇〇〇〇〇〇〇〇〇〇全結合層 35

36.

畳み込み層① • 畳み込み層は，畳み込みを行う 0×1 + 1×0 + 0×1 = 0 • 結合の重みが，畳み込みのカーネルになる • 前の層の，一部分のユニットとのみ結合 • すべてのユニットの結合の重み、バイアスは同じ〇〇〇〇〇〇〇〇〇〇〇〇前の層〇〇〇〇〇〇〇〇〇〇畳み込みのカーネルのサイズが 2×2 のとき：前の層の 4つのユニットとのみ結合畳み込み層 36

37.

畳み込み層① • 畳み込み層は，畳み込みを行う 0×1 + 1×0 + 0×1 = 0 • 前の層の，一部分のユニットとのみ結合〇〇〇〇〇〇〇〇〇〇〇〇前の層〇〇〇〇〇〇〇〇〇〇畳み込みのカーネルのサイズが 2×2 のとき：前の層の 4つのユニットとのみ結合畳み込み層 37

38.

畳み込み層② • 畳み込み層は，一度に複数の畳み込み（数十以上）を行うように作るのがふつうである． • それぞれの畳み込みについて，全ユニットで，重みとバイアスが同じ複数のカーネル〇〇〇〇〇〇〇〇〇〇〇〇前の層〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇１つの畳み込み層 38

39.

畳み込み層の特徴 • 画像内の特定のパターンの識別など → 全結合層にこだわる必要はなく，畳み込み層などが利用される画像内のパターン MIT Introduction to Deep Learning | 6.S191, https://www.youtube.com/watch?v=5tvmMX8r_OM の「Why Deep Learning」のページ 39

https://www.youtube.com/watch?v=5tvmMX8r_OM

40.

ニューラルネットワーク畳み込み層も，全結合層も，同じ原理で動作する．「学習」も行われる ① 入力は複数 ② 入力を重みづけし合計をとる・合計に，バイアスという値を ③ その合計から出力値を得る足し引きしたあと，活性化関数 1 2 3 4 5 6 7 8 9 入力 1 2 3 4 5 6 7 8 9 1 1 1 0 1 1 0 0 1 白黒の画像（画素は 0 または 1）が適用され出力値が得られる．・活性化関数はさまざまな種類重み w1 ～ w9 w1 w2 w3 w4 w5 w6 w7 w8 w9 合計シグモイドユニット 0.9 0.8 0.7 合計は， 0.6 1 × w1 + 1 × w2 + 1 × w3 + 0 × w4 + 1 × w5 + 1 × w6 + 0 × w7 + 0 × w8 + 1 × w9 0.3 ReLU （2011年発表） 0.5 0.4 0.2 0.1 0 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 40

41.

まとめ • データからの学習により，結合の重みが定まる（畳み込みのカーネルができる）複数のカーネル〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇学習に応じたカーネルが得られる〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇 41

42.

4-5. 畳み込みニューラルネットワーク（CNN）の仕組み 42

43.

畳み込みニューラルネットワーク（CNN）畳み込みニューラルネットワークは，畳み込み層と，プーリング層を交互に繰り返すディープニューラルネットワーク畳み込み層プーリング層畳み込み層プーリング層畳み込み層プーリング層畳み込み層プーリング層畳み込み層プーリング層さまざまなバリエーション • 畳み込み層 • プーリング層変になる・・・・・・畳み込みによるパターンの識別画像の小移動に対して，出力が不 43

44.

畳み込みニューラルネットワークの特徴全結合層のみの場合と比べて． • ユニット間の結合を局所に限定 • 結合の数を，大幅に削減 • 結合の数が減り，過学習の問題を緩和 44

45.

畳み込みニューラルネットワーク（CNN）の用途画像分類，物体検出，セグメンテーションなどで高い性能・機能を発揮する場合がある画像分類物体検出セグメンテーション 45

46.

CNN Explainer • CNN Explainer ジョージア工科大学 Polo Club • 畳み込み層などの仕組みをビジュアルに学ぶことができるサイト Webブラウザで次の URL を開く https://poloclub.github.io/cnn-explainer/ 46

https://poloclub.github.io/cnn-explainer/

47.

① 画面の確認このニューラルネットワークは，画像分類を行う画像を選ぶ元画像の赤青緑の成分ニューラルネットワーク画像の分類結果．ここでは espresso 47

48.

② ニューラルネットワークの構成畳み込み層とプーリング層を含む conv relu 畳み込み層 conv relu max_pool conv relu conv relu max_pool 畳み込み層プーリング層畳み込み層畳み込み層プーリング層 conv は畳み込み層で，max_pool はプーリング層全結合層全結合層全結合層全結合層 48

49.

③ 左上の画像をクリック → 畳み込みの様子をアニメーションで確認できる（この画像は，各層での処理結果である．画像１個がニューロン１つというわけではない） 49

50.

④ 出てきた画像をクリック → 畳み込みの詳細をアニメーションで確認できる 50

51.

⑤ 畳み込みの様子がアニメーションで表示されるその他の層についてもビジュアルに表示できる（いろいろ試すことは，各自の自主的な自習とする） 51

52.

プーリングを行う Max Pooling 層 • ２次元のデータの縮小（例）サイズ 100 × 100 ⇒ 50 × 50 のように • 一定領域内の結果を，１つにまとめる． • 定まった計算を行う（学習の対象ではない） • Max Pooling は，縮小後に，最大値が残る範囲内のユニットの活性度の最大を得る 7, 1 の最大値は 4 ・「4, 8, 7, 1」の 4マスから，最大値の 8 を選ぶ．・4, 8, 出典: https://github.com/jeffheaton/t81_558_deep_learning/blob/084023876b6cf09c931b452584dbd44c56314a03/t81_558_class_06_2_cnn.ipynb 52

53.

LCN 層 • コントラストの補正（明るい部分、暗い部分を補正する） • 定まった計算を行う（学習の対象ではない） • 領域内の平均を引くという計算を行うもの．さらに分散で割るという場合もある 5 5 4 0 0 -1 6 6 5 1 1 0 5 5 4 0 0 -1 領域内の平均を引く 53

54.

4-6. 畳み込みニューラルネットワーク（CNN）の作成 54

55.

• 手書き文字の画像を，0 ～ 9 に分類 • 訓練データとして，手書き文字の画像 60000枚を使用 55

56.

MNISTデータセット • 0 ～ 9 の手書き文字．濃淡画像 28 × 28 • 訓練データ（学習用） 60000枚の画像と正解抜粋 • 検証データ（検証用） 10000枚の画像と正解抜粋 56

57.

画像分類を行う畳み込みニューラルネットワークユニットユニット 128 個 10 個 relu softmax 入力畳み込み層畳み込み層プーリング層全結合層全結合層 10種類に分類出力最終層 57

58.

ニューラルネットワーク作成のプログラム例 import tensorflow as tf m = tf.keras.models.Sequential([ tf.keras.layers.Conv2D(32, kernel_size=(3, 3), ←畳み込み層 activation='relu', input_shape=(28, 28, 1)), tf.keras.layers.Conv2D(64, (3, 3), activation='relu'), ←畳み込み層 tf.keras.layers.MaxPooling2D(pool_size=(2, 2)), ←プーリング層 tf.keras.layers.Dropout(0.25), tf.keras.layers.Flatten(), tf.keras.layers.Dense(units=128, activation='relu'), ←全結合層 tf.keras.layers.Dropout(0.5), tf.keras.layers.Dense(units=10, activation='softmax') ←全結合層 ]) https://colab.research.google.com/drive/18IPPkY96Oc6jkYD2su4cFgWcoYAskLo_?usp =sharing 58

https://colab.research.google.com/drive/18IPPkY96Oc6jkYD2su4cFgWcoYAskLo_?usp=sharing

59.

学習の繰り返しを行うプログラム例学習の繰り返し回数は 10 訓練データの指定検証データの指定 59

60.

学習の繰り返しを行うプログラムと実行結果同じ訓練データを用いた学習を１０回繰り返し．そのとき，検証データで検証プログラム実行結果画像分類の精度は 0.99 学習の繰り返しごとに，訓練データや検証データでの精度や損失の変化を確認 60

61.

全体まとめ • 画像の画素数は多い • 全結合層だけでは，画像をうまく扱えない場合が多い • CNN（畳み込みニューラルネットワーク）は，畳み込み層，プーリング層の繰り返しにより，画像を扱う技術 • CNN（畳み込みニューラルネットワーク）は，全結合層で画像がうまく扱えない問題を一部解決 • CNN（畳み込みニューラルネットワーク）の作成は，プログラムで簡単にできる 61