【人工知能・深層学習】CNNやViTの論文紹介前にお見せするスライド

>100 Views

April 26, 24

人工知能 deeplearning 深層学習 cnn vit 論文紹介

スライド概要

2024/04時点での、CNNやViTの勢力や基礎を振り返るためのスライドです。

【注意書き】：研究室内で発表に利用したものです。解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。資料の転用は禁止しております。

Shunsuke Yasuki

@snskysk

スライド一覧

人工知能（ディープラーニング）研究者。現在博士課程に在籍。主な実績：CVPR2024主著論文採択。研究テーマ：コンピュータ・ビジョンの分野で深層学習モデルがどのように機能するかを包括的に研究。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 0.97MB)

関連スライド

【人工知能・深層学習】論文紹介：カーネルサイズ100を超えるCNN - PeLK

論文紹介 deeplearning 人工知能 cnn pelk 深層学習

Shunsuke Yasuki 313

【人工知能・深層学習】論文紹介：NFNetの論文

論文紹介 deeplearning 深層学習人工知能 cnn

Shunsuke Yasuki 111

【人工知能・深層学習】論文紹介：In-Context Learning Creates Task Vectors

論文紹介 deeplearning 人工知能深層学習 llm

Shunsuke Yasuki >100

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 295.9K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 278.7K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 166.2K

各ページのテキスト

画像系深層学習モデルの振り返り CNNやViTの最新論文紹介前にお見せする用スライド

振り返りスライド目次コンピュータビジョン分野における深層学習モデルの勢力 CNNの概要確認畳み込みの確認 ViTの台頭 ViTの高性能要因

コンピュータビジョン分野における深層学習モデルの勢力 ViTの成功に触発され、ラージカーネルCNNなどの研究が活発化している。 2017 2018 2019 2020 2021 2022 2023 2024 CV分野をCNNが席巻 ViTの台頭いくつかの研究は、ViTの強力な性能は、その大きな受容野によるものであるとしている。 self-attentionメカニズムにより、 ViTは広い空間範囲から文脈情報を捉え、長距離の依存関係をモデル化することができる。 CNNの対抗 ViTの進展に触発され、CNNはカーネルサイズの拡大などにより対抗してきた。例えばCNNにラージカーネルを装備する研究が盛ん。これにより、様々な視覚タスクにおいて、ViTと同等か、それ以上の性能を発揮できることが明らかになっている。受容野（正確には有効受容野）の拡大も確認されている。

CNN(Convolutional Neural Network)の概要確認 CNN：画像認識に特化したディープラーニングモデルの1つ「畳み込み層」＆「プーリング層」を複数回繰り返し、最後に全結合層を用いて結果を出力するモデルが基本形。 3クラス分類の例畳み込み層：エッジなどの特徴を抽出する層プーリング層：画像サイズを小さくする層全結合層：前後の層の全ニューロンを接続する層特徴マップの枚数特徴マップの枚数

畳み込みの確認 3×3の畳み込みカーネルを用いて、4×4の特徴マップから2×2の特徴マップを得る例 GIFは「https://www.hellocybernetics.tech/entry/2018/03/10/191024」より引用 3×3の畳み込みカーネルを用いて、 4×4の特徴マップ3枚から2×2の特徴マップ2枚を得る例重みカーネルバイアス入力特徴マップ出力特徴マップ + (補足)層間の重みの数＝入力特徴マップ数×出力特徴マップ数×カーネルサイズ×カーネルサイズ＋バイアス数(出力特徴マップ数)

https://www.hellocybernetics.tech/entry/2018/03/10/191024

ViTの台頭引用元：「https://arxiv.org/abs/2101.09336」

https://arxiv.org/abs/2101.09336

ViTの高性能要因 ※だいぶ前に自作