ae-13. 画像理解システムの演習

1K Views

January 29, 23

スライド概要

トピックス:画像理解システム, 画像理解の応用例, セグメンテーションの種類, 事前学習済みモデル, パノプティック・セグメンテーション, セマンティック・セグメンテーション, インスタンス・セグメンテーション, ディープラーニング, 人工知能

ディープラーニング(スライドとプログラム例,Python を使用)(全15回)
https://www.kkaneko.jp/ai/ae/index.html

金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html

profile-image

金子邦彦(かねこくにひこ) 福山大学・工学部・教授 ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

13. 画像理解システムの演習 (ディープラーニング,Python を使用) (全15回) https://www.kkaneko.jp/cc/ae/index.html 金子邦彦 1

2.

アウトライン 番号 13-1 13-2 項目 復習 画像理解の応用例 演習 各自、資料を読み返したり、課題に取り組んだりも行う 2

3.

コンピュータによる画像理解 • コンピュータが画像を理解する 画像が何であるか,物体がどこに,どういう大きさ, 形で,いくつあるか,をコンピュータが説明できる 能力を持つ 3

4.

① 画像分類 画像分類の結果は,ラベルと確率 ※ 5つの候補 (top 5) が表示さ れている 4

5.

② 物体検出 car person bicycle バウンディングボックス, ラベルを得る バウンディングボックスは, 物体を囲む最小のボックス(四角形) 5

6.

③ セグメンテーション 物体の形を画素単位で抜き出し ラベルを得ることもできる 6

7.

画像理解の主な種類 ① 画像分類 「何があるか」を理解 person bicycle person ② 物体検出 場所と大きさも理解 ③ セグメンテーション 画素単位で領域を理解 bicycle 7

8.

セグメンテーションを試すことができるオンライ ンのサイト • OneFormer のデモサイト • URL: https://huggingface.co/spaces/shilabs/OneFormer • セグメンテーションの種類:パノプティック,インスタン ス,セマンティック • データセット:COCO(133 クラス),Cityscapes(19 クラス),ADE20K (150クラス) 文献: Jitesh Jain, Jiachen Li, MangTik Chiu, Ali Hassani, Nikita Orlov, Humphrey Shi, OneFormer: One Transformer to Rule Universal Image Segmentation, arXiv:2211.06220, 2022. 8

9.

訓練データにより結果が変わってくる 元画像 • • • • 訓練データは COCO 訓練データは Cityscapes 訓練データは ADE20K OneFormer のデモサイトを使用 URL: https://huggingface.co/spaces/shi-labs/OneFormer パノプティック・セグメンテーションを実行 バックボーンは DiNAT-L を使用 9

10.

ADE20K • アノテーション済みの画像データ • オブジェクト(car や person など) も,背景領域も (grass, sky など) ,画素単位でアノテーションさ れている • 画像数: 30,574 • クラス数: 3,688 ADE20K データセットの URL: http://groups.csail.mit.edu/vision/datasets/ADE20K/ 文献: Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, Antonio Torralba, Scene Parsing Through ADE20K Dataset, CVPR 2017, also CoRR, abs/1608.05442, 2017. 10

11.

CityScapes • アノテーション済みの画像データ • 50都市の数ヶ月間(春,夏,秋)の日中,良好な/ 中程度の天候のもとで撮影,計測 • 画像数: 24,998 • クラス数: 30 road, sidewalk, parking, rail track, person, rider, car, truck, bus, on rails, motorcycle, bicycle, caravan, trailer, building, wall, fence, guard rail, bridge, tunnel, pole, pole group, traffic sign, traffic light, vegetation, terrain, sky, ground, dynamic, static CityScapes データセットの URL: https://www.cityscapes-dataset.com/ 文献: Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Frank\ e, Stefan Roth, Bernt Schiele, The Cityscapes Dataset for Semantic Urban Scene Understanding, CVPR 2016, also CoRR, abs/1604.01685, 2016. 11

12.

COCO • 画像データ,人体のランドマーク,人体姿勢の データ • ラベル付け済みの画像数: 200,000以上 • オブジェクトのクラス数: 80 • ランドマーク:左目、鼻、右腰、右足首などの 17 のキーポイント COCO データセットのURL: https://cocodataset.org/ 文献: Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, Piotr Dollr, Microsoft COCO: Common Objects in Context, CoRR, abs/1405.0312, 2014. 12

13.

13-1. 画像理解の応用例 13

14.

① 画像内の差異の抽出(傷,汚れ,病変など) 脳内の病変の抽出 Efficient Multi-Scale 3D CNN with Fully Connected CRF for Accurate Brain Lesion Segmentation, Konstantinos Kamnitsas, Christian Ledig, Virginia F.J. Newcombe, Joanna P. Simpson, Andrew D. Kane, David K. Menon, Daniel Rueckert, Ben Glocker, arXiv: 1603.05959, 2016. 14

15.

他にも ・・・ ② 計測(寸法,面積,角度など) ③ 数の数え上げ ④ 異物の発見 ⑤ 動画での利用(動きの把握,監視,変化の発見) 15

16.

13-2. 画像理解システムの構築 16

17.

① 前準備 ・既存の技術の利用・評価 ・学習済みモデルの利用・評価 ② 応用・展開 ・①で「どこまで役に立つか(性能,機能)」を 考察,十分に検証 ・不足があれば改良 ・既存の記述の適切な利用(利用条件,著作権 等)の再確認 17

18.

演習 ① 目的 画像理解システムの「前準備」の部分. ・既存の技術の利用 ・学習済みモデルの利用 について,実際に各自で体験すること. 画像理解システムの構築について理解を深め,スキ ルを高めること 18

19.

② 注意点 1. どのような用途で役立てるかは,各自で,自由 に想像すること 2. 画像は各自で準備すること 3. 必ずしも完璧な精度で結果が得られるわけでは ない.誤りや誤差を含むものである. 4. 得られた結果で何に役に立つかの考察も大切で ある. 19

20.

③実験の基礎 セグメンテーションの種類: パノプティック (panoptic) セマンティック (semantic) インスタンス (instance) 学習済みモデルのバリエーション: COCO, Cityscapes, ADK20K など 20

21.

④ 手順 (1)次のページで公開されているページを利用 • OneFormer のデモサイト • URL: https://huggingface.co/spaces/shilabs/OneFormer (2)画像は各自で準備 (3)このサイトで, panoptic, instance, semantic(3通り) COCO, Cityscapes, ADK20K(3通り)の組み合わせ 計9通りを試す (4)Backbone のところは「DiNAT-L」で実施 21

22.

⑤各自で考察して欲しいこと • panoptic, instance, semantic(3通り)での違い • COCO, Cityscapes, ADK20K(3通り)での違い • 実行は簡単だったか,難しかったか • 「どのような用途で役立てるか」を想像してくだ さい.役に立ちそうですか? AIを全く使わずに, 人間による作業だけで行った場合と比べて,良い ところはありそうですか? 22