ae-10. 中間まとめ（ディープラーニング）

617 Views

January 29, 23

ディープラーニングの種類ディープラーニングの用途ディープラーニングの仕組み画像理解畳み込みニューラルネットワーク顔情報処理姿勢推定自然言語処理ディープラーニング人工知能金子邦彦研究室

スライド概要

トピックス：ディープラーニングの種類, ディープラーニングの用途, ディープラーニングの仕組み, 画像理解, 畳み込みニューラルネットワーク, 顔情報処理, 姿勢推定, 自然言語処理, ディープラーニング, 人工知能

ディープラーニング（スライドとプログラム例，Python を使用）（全１５回）
https://www.kkaneko.jp/ai/ae/index.html

金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html

kunihikokaneko

@6674398749

スライド一覧

金子邦彦（かねこくにひこ）福山大学・工学部・教授ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 4.78MB)

関連スライド

各ページのテキスト

10. 中間まとめ（ディープラーニング，Python を使用）（全１５回） https://www.kkaneko.jp/cc/ae/index.html 金子邦彦 1

https://www.kkaneko.jp/cc/ae/index.html

〇いまからディープラーニング全般を学びたい〇画像理解について学びたい → 資料の 10-4, 10-5, 10-6 〇物体検出，セグメンテーションの実験を深めていきたい → 資料の 10-4 （補助的に 10.5, 10-6）〇姿勢推定について学びたい → 資料の 10-8 2

• 人工知能（AI）は，ある定まった仕組みで動く • コンピュータを利用 • 現在は，ディープラーニングの進展が著しい．着実に技術が進展している 3

アウトライン番号項目 10-1 10-2 機械学習ディープラーニングの種類，用途 10-3 10-4 10-5 10-6 10-7 10-8 10-9 ディープラーニングの仕組み画像理解畳み込みニューラルネットワークディープラーニングによる画像理解顔情報処理姿勢推定自然言語処理各自、資料を読み返したり、課題に取り組んだりも行う 4

10-1. 機械学習 5

ディープラーニング • 学習による上達の能力 • 訓練データを使用して，学習を行う • 巨大な訓練データ，深い層のニューラルネットワークの利用により，良好な性能・機能を発揮する場合も 6

一般のプログラミングデータ（入力）入力９１０１１１２１３１４プログラムコンピュータ処理結果入力９１０１１１２１３１４処理結果５００５００５００１０００１０００１０００あらゆる入力について正しい処理結果が得られるように，プログラムを作成し，テストする 7

機械学習での予測データ（入力）入力１０１３プログラム予測結果コンピュータ入力予測結果１０５００１３１０００訓練データ入力９１１１２１４正解５００５００１０００１０００訓練データにより，プログラムが自動調整されるニューラルネットワークの重み，決定木の形や分岐ルールなど 8

① 一般のプログラミングデータ（入力）・プログラムは人間が作成し，テストし，調整する．プログラム処理結果コンピュータ ② 機械学習での予測・学習による上達の能力データ（入力）プログラム訓練データコンピュータ予測結果 9

10.

機械学習での汎化訓練データ入力９１１１２１４正解５００５００１０００１０００汎化により，未知のデータについても予測ができるようになる訓練データの汎化入力７８９１０１１１２１３１４１５１６予測結果５００５００５００５００５００１０００１０００１０００１０００１０００ • 汎化は１００％成功するわけでない． • 訓練データとは別のデータ（検証データ）を用いて検証する 10

11.

「汎化は，プログラミングを補うもの」と考えられるようにも • ふつうのプログラミング：あらゆる事態を想定して，プログラムを作成 • 汎化：未知のデータについても処理できる 11

12.

10-2. ディープラーニングの種類，用途 12

13.

ニューラルネットワークの種類 ① 自己符号化（オートエンコーダ）データを低次元の符号にマッピング学習：事前に、データを与えて学習 ② 分類や予測あるデータから別のデータを導く学習：事前に、データと正解（分類結果，予測結果）のペアを与えて学習 13

14.

自己符号化（オートエンコーダ）自己符号化（オートエンコーダ）データを低次元の符号にマッピング元データ符号（高次元）（低次元）出力（高次元）出力が、元データと同じになるように学習 14

15.

自己符号化（オートエンコーダ）の応用例画像復元写真からの顔の３次元化 15

16.

自己符号化（オートエンコード）訓練データコード訓練データには含まれていなくても，現実にありえそうなデータを符号化（コード化） 16

17.

自己符号化（オートエンコーダ）学習により、「現実にあり得るデータを生成できる能力を獲得」と考えることもできる訓練データ現実にありえるデータの範囲 17

18.

分類、予測データ分類結果予測結果所定の結果が得られるようにに学習（学習には、データの正解が必要） 18

19.

分類の例物体検知、セグメンテーションなどの画像理解＝画素や領域を AI で分類 19

20.

分類訓練データそれぞれの範囲を得る分類：何種類かに分類すること 20

21.

ディープラーニングの応用分野〇自己符号化（オートエンコーダ） • 創作 • 合成 • 欠損の補充 • 翻訳〇分類や予測 • 単純な分類 • さまざまな認識や推論 • • • • 画像理解（画像分類，物体検知，セグメンテーション）顔情報処理姿勢推定音声，音楽に関する認識 • 予測 21

22.

10-3. ディープニューラルネットワーク 22

23.

ディープニューラルネットワーク • ディープニューラルネットワークは，層が深い（層の数が多い）ニューラルネットワーク層の数が少ない（浅い）層の数が多い（深い） 23

24.

ニューラルネットワークの仕組み • 前の層から結果を受けとって，次の層へ結果を渡す〇〇〇〇〇〇〇〇〇〇〇〇入力層〇はニューロン，線は結合〇〇〇〇〇（他の結合は書〇〇いていない）〇（他の結合は書〇〇〇いていない）〇〇〇全結合のときは，〇〇〇次層の全ニュー全結合のときは，〇〇ロンと結合する次層の全ニュー〇〇ロンと結合する〇〇〇〇〇出力層中間層 24

25.

ニューラルネットワークのユニットニューラルネットワークのユニットは，数理により動く ① 入力は複数 ② 入力を重みづけし合計をとる ③ その合計から出力値を得る・合計に，バイアスという値を 1 2 3 4 5 6 7 8 9 入力 1 2 3 4 5 6 7 8 9 1 1 1 0 1 1 0 0 1 白黒の画像（画素は 0 または 1）足し引きしたあと，活性化関数が適用され出力値が得られる．・活性化関数はさまざまな種類重み w1 ～ w9 w1 w2 w3 w4 w5 w6 w7 w8 w9 合計シグモイドユニット 0.9 0.8 0.7 合計は， 0.6 1 × w1 + 1 × w2 + 1 × w3 + 0 × w4 + 1 × w5 + 1 × w6 + 0 × w7 + 0 × w8 + 1 × w9 0.3 ReLU （2011年発表） 0.5 0.4 0.2 0.1 0 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 25

26.

1 2 活性化関数重み 1, 1 0, 1 1, 0 1 1 1 2.0 ReLU 1.0 0 0 ユニット -2.0 -1.0 0.0 1.0 -1重み 2.0 1.0 0 0 2 0, 0 入力 1 正解 2.0 -2.0 -1.0 0.0 1.0 2.0 重み ReLU + バイアス（バイアスは -1） 1 1 2.0 訓練データユニット 1.0 0 -2.0 -1.0 0.0 1.0 2.0 ReLU + バイアス（バイアスは +1） 26

27.

それぞれのユニットが「特定のパターンを識別している」と考えることもできる 1 2 1, 1 0, 1 1, 0 1 0 0 1 1 2.0 ReLU 1.0 0 ユニットが識別するパターン -2.0 -1.0 0.0 -1 1 2.0 2.0 1.0 0 2 0, 0 1.0 1 1 ユニットが識別するパターン -2.0 -1.0 0.0 1.0 2.0 ユニットが識別するパターン ReLU + バイアス（バイアスは -1） 2.0 1.0 0 -2.0 -1.0 0.0 1.0 2.0 ReLU + バイアス（バイアスは +1） 27

28.

10-4. 画像理解 28

29.

コンピュータによる画像理解 • コンピュータが画像を理解する画像が何であるか，物体がどこに，どういう大きさ，形で，いくつあるか，をコンピュータが説明できる能力を持つ 29

30.

① 画像分類画像分類の結果は，ラベルと確率 ※ ５つの候補 (top 5) が表示されている 30

31.

② 物体検出 car person bicycle バウンディングボックス，ラベルを得るバウンディングボックスは，物体を囲む最小のボックス（四角形） 31

32.

③ セグメンテーション物体の形を画素単位で抜き出しラベルを得ることもできる 32

33.

画像理解の主な種類 ① 画像分類「何があるか」を理解 person bicycle person ② 物体検出場所と大きさも理解 ③ セグメンテーション画素単位で領域を理解 bicycle 33

34.

セグメンテーションを試すことができるオンラインのサイト • OneFormer のデモサイト • URL: https://huggingface.co/spaces/shilabs/OneFormer • セグメンテーションの種類：パノプティック，インスタンス，セマンティック • データセット：COCO（133 クラス），Cityscapes（19 クラス），ADE20K （150クラス）文献: Jitesh Jain, Jiachen Li, MangTik Chiu, Ali Hassani, Nikita Orlov, Humphrey Shi, OneFormer: One Transformer to Rule Universal Image Segmentation, arXiv:2211.06220, 2022. 34

https://huggingface.co/spaces/shi-

35.

訓練データにより結果が変わってくる元画像 • • • • 訓練データは COCO 訓練データは Cityscapes 訓練データは ADE20K OneFormer のデモサイトを使用 URL: https://huggingface.co/spaces/shi-labs/OneFormer パノプティック・セグメンテーションを実行バックボーンは DiNAT-L を使用 35

https://huggingface.co/spaces/shi-labs/OneFormer

36.

ADE20K • アノテーション済みの画像データ • オブジェクト(car や person など) も，背景領域も (grass, sky など) ，画素単位でアノテーションされている • 画像数： 30,574 • クラス数: 3,688 ADE20K データセットの URL: http://groups.csail.mit.edu/vision/datasets/ADE20K/ 文献: Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, Antonio Torralba, Scene Parsing Through ADE20K Dataset, CVPR 2017, also CoRR, abs/1608.05442, 2017. 36

http://groups.csail.mit.edu/vision/datasets/ADE20K/

37.

CityScapes • アノテーション済みの画像データ • 50都市の数ヶ月間（春，夏，秋）の日中，良好な/ 中程度の天候のもとで撮影，計測 • 画像数： 24,998 • クラス数: 30 road, sidewalk, parking, rail track, person, rider, car, truck, bus, on rails, motorcycle, bicycle, caravan, trailer, building, wall, fence, guard rail, bridge, tunnel, pole, pole group, traffic sign, traffic light, vegetation, terrain, sky, ground, dynamic, static CityScapes データセットの URL: https://www.cityscapes-dataset.com/ 文献: Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Frank\ e, Stefan Roth, Bernt Schiele， The Cityscapes Dataset for Semantic Urban Scene Understanding, CVPR 2016, also CoRR, abs/1604.01685, 2016. 37

https://www.cityscapes-dataset.com/

38.

COCO • 画像データ，人体のランドマーク，人体姿勢のデータ • ラベル付け済みの画像数： 200,000以上 • オブジェクトのクラス数: 80 • ランドマーク：左目、鼻、右腰、右足首などの 17 のキーポイント COCO データセットのURL: https://cocodataset.org/ 文献: Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, Piotr Dollr, Microsoft COCO: Common Objects in Context, CoRR, abs/1405.0312, 2014. 38

39.

10-5. 畳み込みニューラルネットワーク（CNN） 39

40.

畳み込み畳み込みは，あるデータを移動しながら，カーネルと重ね合わせる．重ね合わせの結果は１つの値になる．データ移動カーネルと同じ長さに切り出しカーネル重ね合わせ（掛け算と合計） 40

41.

畳み込みの例データ 0 1 0 1 0 0 1 1 1 0 この部分を切り出すカーネル 1 0 1 0×1 1×0 0×1 0 重ね合わせの結果： 0×1 + 1×0 + 0×1 = 0 41

42.

畳み込みの例移動 0 1 0 1 0 0 1 1 1 1 0 1 1 0 1 1 0 1 0×1 1×0 0×1 1 0 1×1 0×0 0×1 1 1×1 0×0 1×1 1 0 1 2 0 1×1 1×0 1×1 1 0×1 0×0 0×1 1 0×1 1×0 0×1 0 0 1 1 0 0 1 0 1 1×1 1×0 0×1 1 0×1 1×0 1×1 1 1 2 1 42

43.

畳み込み畳み込みは，「特定のパターンに強く反応する」と考えることもできる畳み込み結果が大きくなる部分データ 0 1 0 0 1 0 2 1 0 0 1 1 1 0 1 1 1 2 1 0 カーネル 1 畳み込み結果 43

44.

畳み込みのまとめ • 畳み込みは，あるデータを移動しながら，カーネルと重ね合わせる． • カーネルは値の並び（例） 0 1 0 • 重ね合わせは，同じ長さの２つのデータについて，要素同士の掛け算の合計． 44

45.

画像の畳み込みカーネル（３×３マス）元画像（５×５マス）出典: https://serokell.io/blog/introduction-to-convolutional-neural-networks 45

46.

画像での畳み込み元画像（５×５マス）カーネル（３×３マス）切り出した部分とカーネルの掛け算の合計 0×1 1×0 1×1 0×1 1×1 1×1 0×0 1×0 1×1 合計: 4 （これが畳み込み結果）切り出し（３×３マス）カーネルと同じサイズで切り出す畳み込み 46

47.

画像での畳み込みカーネル（３×３マス）元画像（５×５マス） 0×1 1×0 1×1 0×1 1×1 1×1 0×0 1×0 1×1 4 3 合計: 4 切り出し（３×３マス）切り出し領域を横にずらす 1×1 1×0 0×1 1×1 1×1 0×1 1×0 1×0 0×1 畳み込み結果合計: 3 畳み込み結果 47

48.

畳み込み元画像（５×５マス）カーネル（３×３マス）切り出した部分とカーネルの掛け算の合計 0×1 1×0 1×1 0×1 1×1 1×1 0×0 1×0 1×1 合計: 4 （これが畳み込み結果）切り出し（３×３マス）カーネルと同じサイズで切り出す畳み込み 48

49.

畳み込み層 • 畳み込み層は，一度に複数の畳み込み（数十以上）を行うように作るのがふつうである． • それぞれの畳み込みについて，全ユニットで，重みとバイアスが同じ複数のカーネル〇〇〇〇〇〇〇〇〇〇〇〇前の層〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇１つの畳み込み層 49

50.

畳み込みニューラルネットワーク（CNN）畳み込みニューラルネットワークは，畳み込み層と，プーリング層を交互に繰り返すディープニューラルネットワーク畳み込み層プーリング層畳み込み層プーリング層畳み込み層プーリング層畳み込み層プーリング層畳み込み層プーリング層さまざまなバリエーション • 畳み込み層 • プーリング層変になる・・・・・・畳み込みによるパターンの識別画像の小移動に対して，出力が不 50

51.

プーリングを行う Max Pooling 層 • ２次元のデータの縮小（例）サイズ 100 × 100 ⇒ 50 × 50 のように • 一定領域内の結果を，１つにまとめる． • 定まった計算を行う（学習の対象ではない） • Max Pooling は，縮小後に，最大値が残る範囲内のユニットの活性度の最大を得る 7, 1 の最大値は 4 ・「4, 8, 7, 1」の 4マスから，最大値の 8 を選ぶ．・4, 8, 出典: https://github.com/jeffheaton/t81_558_deep_learning/blob/084023876b6cf09c931b452584dbd44c56314a03/t81_558_class_06_2_cnn.ipynb 51

52.

畳み込みニューラルネットワークでのパターン認識「畳み込みニューラルネットワークの利用により，さまざまなレベルのパターンを抽出・認識できるようになる」という考える場合も Mei Wang, Weihong Deng, Deep Face Recognition: A Survey, arXiv:1804.06655, 2018. 52

53.

10-5. ディープラーニングによる画像理解 53

54.

画像分類 AlexNet (2012年） • 画像分類，教師有り学習，ディープニューラルネットワーク • 特徴：CNN（畳み込みニューラルネットワーク）の導入畳み込み, max pooling, 正規化(LCN), softmax, ReLU, ドロップアウト L C N 畳み込み畳み込み畳み込み max pooling 畳み込み max pooling L C N max pooling 畳み込み全結合全結合全結合 • 画像分類結果が報告された訓練データ: 画像約 100万枚以上（ImageNet データセット，22000種類に分類済み），ILSVRCコンペティション: 画像を 1000 種類に分類文献: ImageNet classification with deep convolutional neural networks, Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, NIPS'12, 2012. 54

55.

ディープラーニングによる画像分類の進展 (1/2) CNN（畳み込みニューラルネットワーク） • AlexNet（2012年） CNN（畳み込みニューラルネットワーク）の導入 • VGG-16，VGG-19（2014年）プーリングカーネルのサイズ縮小．サイズ縮小の結果，従来より深い CNN を可能に • ResNet (2015 年) 残差結合 (Residual Connection)，Bottleneck Residual Block の導入． 30層以上の深い CNN を可能に．ResNet34, ResNet50, ResNet101, ResNet 152 などの種類 • Xception（2016年） ResNet の畳み込み層を Depthwise Separable Convolution に置き換え • EfficientNet（2019年） CNN の深さとチャンネル数と解像度の配分を探索（私見）CNNの深さ（層の数）を増やすという方向では完成の域にある．いまは，チャンネル数，解像度も含む総合的な分析が行われている 55

56.

ディープラーニングによる画像分類の進展 (2/2) Transformer • Transformer（2017年）自然言語処理のために Transformer が考案された．Attention を特色とする． • vision Transformer （2020年） Transformer を画像理解に使用．CNNと違うもので，畳み込み演算を用いない • Swin Transformer （2021年） vision Transformer に Sifted Windows を導入 • DiNAT（2022年） vision Transormer で用いられる NA (Neighborhood Attention) の改良．（私見）精度向上の途上である．CNNによる方法を性能で上回る可能性もあるし，そうでない可能性もある 56

57.

Residual Block x CNN 層 (weight layer) 残余関数 (residual mapping) ReLU 残余接続 CNN 層 (weight layer) + Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognition, IEEE Conference on Computer Vision and Pattern Recognition, 2016.

58.

Bottleneck Residual Block 58

59.

物体検出の仕組み ① 元画像から切り出す最初の区切り画像分類結果 59

60.

物体検出の仕組み ② 画像分類結果区切りごとに画像分類を行う． 60

61.

「区切り」を用いた物体検出での課題と解決課題：物体の大きさがさまざま（物体の大きさが一定ならば，検出は難しくはない）解決へのアプローチさまざまなスケールの画像を作る（マルチスケール）マルチスケールの画像の中のどれかでは，物体は「一定の大きさ」に近くなる 61

62.

画像分類とセマンティック・セグメンテーション画素 person bicycle 画像を分類 person 画素単位で分類画像分類全画素を分類セマンティックセグメンテーション 62

63.

セグメンテーションのための FCN （2015年発表） • 画素ごとに分類結果の正解を与えての学習を可能にする技術 • 最終層を畳み込み層にする＝ FCN と呼ぶ最終層は FCN 最終層は全結合層元画像結果元画像畳み込みニューラルネットワークによる画像分類結果畳み込みニューラルネットワークと FCN によるセマンティック・セグメンテーション Jonathan Long, Evan Shelhamer, Trevor Darrell, Fully Convolutional Networks for Semantic Segmentation, arXiv:1411.4038, 2015. 63

64.

FCN まとめ • 画像分類を行う畳み込みニューラルワーク（出力は分類結果）で，最終層を FCN に置き換え • セマンティック・セグメンテーションに応用 Jonathan Long, Evan Shelhamer, Trevor Darrell, Fully Convolutional Networks for Semantic Segmentation, arXiv:1411.4038, 2015. 64

65.

セグメンテーションの種類元画像パノプティック・セグメンテーション • • • • インスタンス・セグメンテーションセマンティック・セグメンテーション OneFormer のデモサイトを使用 URL: https://huggingface.co/spaces/shi-labs/OneFormer 訓練データは COCO バックボーンは DiNAT-L を使用 65

https://huggingface.co/spaces/shi-labs/OneFormer

66.

セグメンテーションの種類セマンティック・セグメンテーション全画素を種類に分類インスタンス・セグメンテーション個別の物体を識別する「物体として識別できない部分は結果がない」ということもあるパノプティック・セグメンテーションセマンティック・セグメンテーションとインスタンス・セグメンテーションの同時実行 66

67.

10-6. 顔情報処理 67

68.

群衆のカウント • 群衆のカウント（画像内の人数を数える） • 監視等に役立つ．元画像 FIDTM 法による群衆のカウント FIDTM 法（2021年発表）は，それ以前の手法よりも，さまざまな大きさの顔を精度よく検出できるとされている 68

69.

顔写真からの３次元再構成 3DFFA 法（2022年発表） • 元画像から，３次元の顔を生成（３次元再構成） • 顔検出，顔ランドマーク（顔の目印となるポイント）の検出ののち，ランドマークに顔の３次元モデルをあてはめる元画像顔ランドマーク３次元再構成 69

70.

顔検出を行う AI • 顔検出を行う AI は教師あり学習である • 顔検出は，物体検出が基礎となるデータ（入力）プログラム顔検出結果コンピュータ顔画像とバウンディングボックス訓練データ顔画像の例 70

71.

• 顔識別（本人の特定）を行い，鍵代わりに使用 71

72.

顔のコード化 • 顔のコードは，複数の数値（ふつう１００以上）の組み合わせ • 顔画像から，顔ランドマークを求め，顔のコードを得る • さまざまな用途：顔識別（本人の特定），顔認識，年齢の推定，性別の推定，表情の推定，顔の３次元再構成など顔検出，顔ランドマーク数値化 72

73.

顔検証 (face verification) ２つの別の写真あるいはビデオを照合し，同一人物であるかを判定する顔の比較顔のコード（距離計算）コード同一人物であるまたは同一人物でない 73

74.

顔認識 • データベース内の顔写真との比較により、人物を特定するデータベース顔の顔の顔の顔の顔の顔の比較顔の顔の顔の顔のコードコードコード（距離計算）コードコードコードコードコードコードコード写真内のそれぞれの人物が誰なのか 74

75.

10-7. 姿勢推定 75

76.

人体の姿勢推定人工知能で処理撮影姿勢推定の結果マーカーレス：画像，ビデオから姿勢推定を行う．特別な機材は使わない 76

77.

人体の姿勢推定の例（OpenPose を使用） 77

78.

人体の姿勢推定 • 人体のランドマーク（顔，胴体，手，足の中の特定の点）の位置推定 • 人体の姿勢についての情報を得る 78

79.

ランドマークとボーンボーン＝骨格，ランドマーク＝点 OpenPose では，25個のランドマークが定まっている（OpenPose は，人体の姿勢推定の一手法） 0:鼻 1:首 2:右肩 3:右ひじ 4:右手首 5:左肩6:左ひじ 7:左手首 8:真ん中腰 9:右腰 10:右ひざ 11:右足首 12:左腰 13:左ひざ 14:左足首 15:右目16:左目 17:右耳 18:左耳 19:左足親指 20:左足小指 21:左かかと 22:右足親指 23:右足小指 24:右かかと OpenPoseのランドマークとボーン 79

80.

ランドマークの位置推定 ①元画像 ②ランドマークの ③ランドマークと位置推定ボーン ②ランドマークの位置推定：Body Part Detection 法では，元画像の中から，顔，首，肩，手などの部位を検出する ③ランドマークとボーン：②の結果と体全体の情報から，ランドマークの位置の特定，ボーンの生成を行う Qi Dang, Jianqin Yin, Bin Wang, Wenqing Zheng, Deep Learning Based 2D Human Pose Estimation: A SurveyDeep Learning Based 2D Human Pose Estimation: A Survey, Tsinghua Science and TechnologyTsinghua Science and Technology, Volume 24 Issue 6 Article 5, 2019. 80

81.

ランドマークの位置推定各レベルでの推定結果を後段へ画像の縮小画像の拡大ランドマークの位置推定部位の大きさはさまざま ⇒ マルチスケールの画像を使う • 画像を複数レベルに縮小し，各レベルで部位を検出 • 元の大きさに戻しながら，検出結果を重ね合わせ Alejandro Newell, Kaiyu Yang, and Jia Deng, Stacked Hourglass Networks for Human Pose Estimation, arXiv:1603.06937v2, 2016. https://arxiv.org/pdf/1603.06937v2.pdf 81

https://arxiv.org/pdf/1603.06937v2.pdf

82.

10-8. 自然言語処理 82

83.

人間の言葉を理解し，曲をかけたり，電気製品を制御したりするスマートスピーカー 83

84.

問答リカレントニューラルネットワークは，回帰により，過去の情報をテキスト保持する．時系列データなどのデータの並びを扱う能力を持つ質問要約回帰答え保持するリカレントニューラルネットワークは，回帰により，過去の情報を保持する．時系列データなどのデータの並びを扱う能力を持つ要約データは回帰する能力がある．テキスト生成リカレントニューラルネットワークは，回帰により，過去の情報を保持する．時系列データなどのデータの並びを扱う能力を持つ生成リカレントニューラルネットワークは，回帰により，過去の情報を保持する．時系列データなどのデータの並びを扱う能力を持つ.線形回帰モデル(pn-model)は,過去のデータが現在から何百年後かに再度出現する.つまり, AIが生成する結果の例 84

85.

翻訳（日本語から英語，英語から日本語） DeepL 翻訳ツール https://www.deepl.com/ja/translator 85

https://www.deepl.com/ja/translator

86.

自然言語の処理の例 • • • • • • • • • 問答要約テキスト生成分類翻訳欠損の補充文章の類似度人間の言葉として正しいか正しくないかの判定文法に関するもの（品詞，係り受け）など 86

87.

単語の特徴ベクトル単語の特徴ベクトル・・・単語を数値化（１つの単語を複数の数値の組で置き換えたもの）単語数値化 iPhone 多数の数値の組 • 文章は長い．単語の順が変わっても同じ意味ということもある：文章全体を単語の列として扱う．2017年発表の Transformer などの技術がある． 87

88.

自然言語を扱うニューラルネットワーク＜文章＞＝単語１単語２単語３単語１単語２単語３ニューラルネットワーク特徴特徴特徴ベクトルベクトルベクトル 88

89.

自然言語を扱うニューラルネットワーク＜文章＞＝単語１単語２単語３単語１単語２単語３ニューラルネットワーク１番目の出力特徴特徴特徴ベクトルベクトルベクトル 89

90.

自然言語を扱うニューラルネットワーク＜文章＞＝単語１単語２単語３単語１単語２単語３ニューラルネットワーク２番目の出力特徴特徴特徴ベクトルベクトルベクトル 90

91.

自然言語を扱うニューラルネットワーク単語１単語２単語３ニューラルネットワーク特徴特徴特徴ベクトルベクトルベクトル順々に処理される（文章が長いときも同じ）３番目の出力 91

92.

単語の特徴ベクトル単語の特徴ベクトル・・・単語を数値化（１つの単語を複数の数値の組で置き換えたもの）単語数値化 iPhone 多数の数値の組 92

93.

【自然言語処理の課題】語順が違っても扱えること今日は晴れだが、明日も晴れだ。明日は晴れだが、今日も晴れだ。文章は長い．単語の順が変わっても同じ意味ということもある： 2017年発表の Transformer などの技術がある． 93

94.

Transformer リカレントニューラルネットワークの欠点を克服するものとして，Transformer が 2017年提案された • 列を入力とし，列を出力とする点などは，リカレントニューラルネットワークと同じ • リカレントニューラルネットワークの欠点を克服するため，離れた単語間に依存関係を直接扱う Attention の仕組みを導入 94

95.

全体まとめ 1/2 ① 機械学習の能力向上 → ディープニューラルネットワーク，大量の訓練データの利用 ② 画像分類 → 畳み込みニューラルネットワーク ③ 物体検出 → マルチスケール 95

96.

全体まとめ 2/2 ④ セグメンテーション → 最終層を畳み込み層にする（FCN） ⑤ 顔情報処理 → 顔のコード化，顔のランドマーク ⑥ 姿勢推定 → ランドマークとボーン ⑦ 自然言語処理 → 単語の特徴ベクトル，Transformer 96

ae-10. 中間まとめ（ディープラーニング）

kunihikokaneko

関連スライド

dn-5. 顔検出， 顔認識（Dlib, InsightFace を使用）

bt-7. Blender 3.0 の液体のアニメーション

NVIDIA ドライバ, CUDA 11.6, cuDNN 8.4 のインストール (Windows 上) (2022年4月の最新版)

ae-9. 姿勢推定

1. データベースとは，データベースシステムとは，情報とデータ

ae7ae-7. 予測・判断（時系列データ，リカレントニューラルネットワーク，LSTM）

各ページのテキスト

dn-5. 顔検出，顔認識（Dlib, InsightFace を使用）