[DL輪読会]Calibrating CNNs for Lifelong Learning

460 Views

November 27, 20

#deep learning #Deep Learning #Lifelong Learning #CNN #Calibration Module #Continual Learning

スライド概要

2020/11/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Calibrating CNNs for Lifeling Learning Hirono Okamoto, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報: Calibrating CNNs for Lifelong Learning n NIPS 2020 accepted n 筆頭著者: Pravendra Singh n 概要: n DNNの層のパラメタは固定したまま，タスクごとに中間層出⼒を通すキャリブレーションモジュールのみを学習することで，破滅的忘却を防ぎつつも⼤きくパラメータを増やさずに継続タスクを解く．実験では分類問題の正解率において様々なデータセットでこれまでの⼿法を⼤きく引き離してSOTAを達成した．キャリブレーションモジュール

背景: 継続学習とは n 継続学習: モデルが⻑い期間次々と与えられる新しいデータに対して連続的に学習すること n 継続学習モデルの⽬的: 新しいサンプルが追加されたときに再学習するコストを減らす n よくあるモデルの検証⽅法: 過去学習したデータにはアクセスできず，現在のデータからのみ学習を⾏う n 過去のデータも含めたすべてのデータを使ってテストを⾏う n 過去データ1 現在データ2 データ3 train モデルデータ4 時間

背景: 継続学習における問題 n 通常の機械学習モデルは例えば下図の現在のデータ3を学習しているとき，過去のデータ1,2 にアクセスできないと，データ1,2のことを忘れてしまう(破滅的忘却) 過去データ1 現在データ2 データ3 データ4 時間 train モデル n このとき，データ3のタスクは解けるがデータ1,2のタスクは解けない問題がおこる

背景: 破滅的忘却を防ぐには n ナイーブなやり⽅: 新しいデータと古いデータ合わせて改めて学習する現在過去データ1 データ2 データ3 データ4 時間 train モデル n ⽋点: n n n 全部のデータを新しいデータが現れるたびに再学習するのはコストが⾼い昔のデータをとっておく必要があるがアクセスできなくなってしまうかもしれない上記⽋点を解決するために，いくつかのモデルが提案されている

関連研究: 継続学習の⼿法は⼤きく３つ存在する n 正則化ベースの⼿法: 昔の知識を失わないようにする正則化をつける n メモリーベースの⼿法: 部分的に昔のサンプルを使う，もしくは⽣成サンプルを使う n 動的ネットワークの⼿法: タスクが増えたときにネットワーク構造を追加するそれぞれの⼿法の具体例を1つずつ紹介する

関連研究: 正則化ベースの⼿法 n 新しいタスクを訓練するとき，ネットワークが⼤きく変わることを防ぐことで，昔のタスクの知識をある程度残しておく⽅法 n n 例: Overcoming catastrophic forgetting in neural netwirks n n ※ 提案⼿法は正則化を利⽤しないタスクAが解けるようなパラメタ空間上でタスクBが解けるようなパラメタを探すロス: ⼀項⽬: タスクBのロス n ⼆項⽬: タスクAが解けるパラメタから遠ざからないようにする正則化項 n n Fはフィッシャー⾏列の対⾓成分

関連研究: メモリベースの⼿法 n 古いタスクのデータや表現を保持し，新しいタスクの学習中に利⽤することで破滅的忘却を防ぐ⽅法 n ※ 提案⼿法は前のタスクのデータを保持しないため，それを記憶するためのメモリも必要ない例: Continual Learning with Deep Generative Replay n ロス: n ⼀項⽬: Solver(分類器)が現在のデータを使ってcross entropyで普通に学習する n ⼆項⽬: GANで昔のデータを出⼒させ，Solverの昔の出⼒と現在の出⼒を近づけるようにする n

関連研究: 動的ネットワークの⼿法 n 新しいタスクを訓練するために，動的にネットワークを変更していく⽅法 n n ※ 提案⼿法はこれ．ただし少ないパラメタですむ例: Progressive Neural Networks 昔の中間層の出⼒を新しく⼊⼒として利⽤する n 古い重みを更新せず，新しいタスクごとに新しいネットワークを追加する n ⽋点: パラメタの数がタスクが増えるたびに⾮常に増加してしまう n 現タスクを解く重み古いタスクの出⼒を利⽤する重み (#) (#:%) 𝑊% (#:%) 𝑊! 𝑈% 𝑈! (#) 点線: 過去のタスクで学習した重み実線: 現在のタスクで学習する重み

10.

提案⼿法: 全体像 n ３つのモジュールベースモジュール(CNN) n タスク適応型キャリブレーションモジュール(𝐶𝑀'( ) n タスク特有の分類モジュール(𝐶 ( ) n n 分類ロス(クロスエントロピーロス)のみを使って学習するアクティベーションマップを出⼒ CNNの層 SCMとCCMからなるクラス数は固定する必要がありそうパラメタ固定タスクごとに学習し，初期値は前のタスクの重みとする分類モジュールの説明がなくてよくわからない🤔

11.

提案⼿法: spatial calibration module (SCM) n Φ!" : SCM operator n GCONV: グループ化畳み込み n n n 3x3のフィルタを使う αチャンネル，C/αグループ ※ グループ化畳み込み: チャネル⽅向にグループ分割し，それぞれ畳み込みしたあとチャネル⽅向に結合させる n depthwise convolutionの発展型 n element wiseに⾜す

12.

提案⼿法: channel-wise calibration module (CCM) n ξ"! : CCM operator n GAP: global average pooling n n GCONV: group convolution n n n output size: 1x1xC 1x1のフィルタを使う βチャンネル，C/βグループ BN: batch normalization element wiseにかけるまとめると，

13.

実験: 10分割したCIFAR100の正解率 n 実験設定: n n 検証⽅法: n n n タスクを1つずつ増やして学習するこれまでのタスクの正解率の平均を計算する(?) 提案⼿法: CCLL<α, β> n n n CIFAR100を10クラスごとに分割し，10タスクにする αβはGCONVのチャネル数グラフの⻘・⿊結果: 他の⼿法と⽐べて⼤きく上回った n ※ どのタスクを解いているという情報は使っている n 例えばEWCはそのような情報使ってないのでは? 🤔

14.

実験: パラメタ数の増加率提案⼿法(紫)はタスクが増えてもほとんどパラメタ数が増加しない n Progressive Neural Networksはパラメタ増加率が⾮常に⼤きい n

15.

実験: アブレーションスタディ n 実験設定(split CIFAR-10/100): n n n CIFAR10を最初のタスクとして学習する CIFAR100から10クラスずつとりだし，次のタスクとする結果: n n 提案⼿法はhnetよりも性能が良い CCLL_SF_SCの性能が⾮常に低いのは，キャリブレーションパラメタがタスクを学習するのに⼗分なパラメタをもっていないから n n → 提案⼿法のベースモジュールの知識転移がうまくいっていることが⽰されている CCLL_SCの性能が悪いのは，前のタスクの重みを使っていないので，前タスクの知識転移がされていないから n SC: Scrach Calibration n タスクごとに１からキャリブレーションモジュールを学習する(通常は前のタスクのときの重みを初期値とする) n SF: Scrach Freeze n hnet: split CIFAR-10/100を使ったときの現SOTA⼿法 n ベースモデルを全く学習しない

16.

実験: アブレーションスタディ n 実験設定: split CIFAR-10/100 n n 検証⽅法は6つのタスクの平均の正解率結果: SCMかCCMがあると結果が⼤きく上昇する αが⼤きいほど性能がよくなる(ただし，パラメタ数と計算時間は増える) n βを変えても性能はあまりかわらなかったので，β=1で固定してある n n

17.

実験: 画像サイズの⼤きいデータセットより難しいとされているImageNetやMS-Celebといったデータセットを使った実験 n これまでの⼿法に⼤きく差をつけてSOTA n すべてのタスクを同時に学習した場合(上限)に近い結果 n

18.

実験: ベースモジュールの初期タスクの依存度実験設定: SVHNを2クラスごとに分割し，5タスクにする n ⽐較: n 1. SVHNで学習する 2. CIFAR10でpretrainしたものを利⽤ n 3. CIFAR10でpretrainし，SVHNでfinetune n n n 1 2 3 結果: どの場合も正解率が⾼い n しかし，⼀般的には最初のタスクは様々な種類の画像データで学習すべき n n もし最初のタスクのデータセットに少量のクラスやサンプルしかなかったらおそらく正解率は低い (参考) 他の⼿法との⽐較

19.

まとめ n 論⽂の結論: n n n 今後の展望: n n n タスクごとに少量のパラメタの追加するだけでSOTAの精度を達成提案⼿法による⽅法は破滅的忘却しないことも⽰した今回のドメインは画像分類のみなので，セグメンテーションや物体検出に応⽤する提案⼿法はキャリブレーションモジュールを追加するだけなので，通常の深層学習モデルを継続学習のタスクを解くモデルとして拡張できる感想: n 賢いけどどうやってキャリブレーションモジュールができあがったのかよくわからない n 分類モジュールの説明がないし実装も⾒当たらないのでよくわからない n n n n もともとはパラメタ固定convとタスクごとの可変convを⽤意してた→パラメタ減らす⼯夫をした説 GAPしてチャネル数=クラス数としてクロスエントロピーロス使ってるのか︖ タスクごとにクラス数固定っぽいのはいいのか︖距離学習とか使えば解決できそうだが… 実験設定も細かいとこが書いていないのでよくわからない