[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning

778 Views

December 13, 19

#deep learning #Deep Learning #Multi-task Learning #AdaShare #Efficient Learning #Machine Learning

スライド概要

2019/12/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning Present Square Co.,Ltd. 小林範久 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル：著者： AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning （https://arxiv.org/abs/1911.12423） Ximeng Sun, Rameswar Panda, Rogerio Feris （ Boston University, IBM Research & MIT-IBM Watson AI Lab）概要： • 効率的なマルチタスク学習のための新しいアプローチを提案。 • マルチタスクネットワークにおいて、与えられたタスクに対してどの層を実行するかを選択するポリシーを通して、共有パターンを学習する。 • ３つのベンチマークデータセットでSOTA。 2

https://arxiv.org/abs/1911.12423

アジェンダ 1. 2. 3. 4. 5. 概要先行研究提案手法実験結果まとめ 3

1. 概要背景 • 一般的にマルチタスク学習は、シングルタスク学習と比べて訓練時間と推論時間を減少させることができ、関連タスク間の共有表現を学習することで、汎化性能と予測精度を高めることが期待できる。 • 自動運転やモバイルプラットフォームのような資源が限られたアプリケーションに対しても重要。 • しかし、どの層を共有するか否かを手動で調整したり、タスク数が増加するとパラメータ数が比例して増加してしまう従来の設計は、効率的ではない。ネットワーク内のどの層をどのタスク間で共有すべきか、どの層をタスク固有にすべきかを決定することで、高い精度を出しながら、メモリの使用量を抑えるスケーラブルで効率的なネットワークを設計したい画像出典：http://ruder.io/multi-task/ 4

http://ruder.io/multi-task/

2. 先行研究従来のマルチタスク学習 Hard-parameter Sharing • 同じ初期層を使用し、アドホックポイントを手動で設計し、ネットワークをタスク固有の分岐に分割する。 ⇒深い層を有するDNに対して、最適な構成を手動で調整することは困難。 Soft-parameter Sharing • タスク固有のネットワークと共有ネットワークとを組み合わせて使用。 ⇒モデルのサイズが、タスクの数に対して線形に増加するため、効率的でない。 5

3. 提案手法 AdaShare • 効率的なマルチタスク学習のための新しいアプローチ。 • マルチタスクネットワークにおいて、与えられたタスクに対してどの層を実行するかを選択するポリシーを通して、共有パターンを学習する。 • 高い精度を出しながら、メモリの使用量を抑えることができる。（パラメータを削減できる。） 6

3. 提案手法 AdaShareの学習の概要 • 学習されたタスク固有のポリシー分布からサンプリングされた[Skip or Select] を予測することにより、複数のタスク間の重み共有パターンを学習する。 • 各層は、2つのタスクで使用されている場合は重み共有され、1つのタスクのみで使用されている場合はタスク固有となる。 • Gumbel-Softmax Samplingを介した標準の逆伝播を使用して、ポリシーと重みパラメーターの両方を学習する。 • 訓練では、タスク固有の損失とポリシーの正規化（スパース性と共有を促進）を使用する。 7

3. 提案手法アプローチ 𝑇𝑘 𝑙 ：タスク {𝑇1 , 𝑇2 ,・・・ , 𝑇𝑘 } ：レイヤーの数 𝑢𝑙,𝑘 ：ポリシー [0, 1]（Skip or Select） 𝑊 レイヤー <例> 1, 2, 3, ・・・ 𝑇1 (𝑆𝑒𝑔) [1] [1] 𝑇2 (𝑆𝑁) [1] [0] 𝑙 − 1, 𝑙 [0] [0] [1] [1] [1] [1] タスク：重みポリシー𝑈とネットワークの重み𝑊を共に学習させる。 (1) ※各レイヤーの重みについて、skip or selectを選択する。 T1、T2でselect されていれば、重み共有となる。 • ポリシー𝑈の取りうる値は、層の数とタスクの数と共に指数関数的（2𝐿×𝐾 ）に増加する。 • 重みWは誤差逆伝播で求めることができるが、ポリシーUは離散的で誤差逆伝播できない。 ⇒Gumbel Softmax Samplingを採用することで、誤差逆伝播によって𝑈を最適化する。 8

3. 提案手法 Gumbel Softmax Sampling G𝑙,𝑘 ：Gumbel Distribution α𝑙,𝑘 ：タスクT𝑘 の 𝑙 番目のブロックで選択される確率 π𝑙,𝑘 ：Skip or Select π𝑙,𝑘 = [1 − α𝑙,𝑘 , α𝑙,𝑘 ] (2) ※argmaxした時に異なるクラスが出力されるため、疑似的にサンプリングを行うことができる。上記式について、離散分布のサンプリングから、Gumbel Softmax 分布を用いた微分可能サンプリングに変換。 τ ：温度パラメータ（本論文では、𝜏 = 5を利用） (3) = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥((log 𝜋 + 𝐺)/𝜏) 9

10.

3. 提案手法損失関数 𝑳𝒕𝒂𝒔𝒌 𝐿𝑘 ：タスクT𝑘 の固有のLoss (4) 𝑳𝒔𝒑𝒂𝒓𝒔𝒊𝒕𝒚 疎であることを推奨する損失。選択される確率が高くなるほど、損失が大きくなる。（α𝑙,𝑘 は、タスク𝑇𝑘 の 𝑙 番目のブロックで選択される確率。） (5) 𝑳𝒔𝒉𝒂𝒓𝒊𝒏𝒈 重みの共有を推奨する損失。（重みが共有されていないと損失が増える。）異なるタスクのポリシー間のL1距離の加重和。初期層の共有を促進することを重点に置き、初期層で重みが共有されていない場合ほど、損失が大きくなる。 (6) 𝑳𝒕𝒐𝒕𝒂𝒍 (7) 10

11.

3. 提案手法学習全体のネットワーク訓練を二つの段階に分けて学習。第１段階ネットワークの重みとポリシーを学習。訓練データの80%を用いて、固定ポリシー分布からサンプリングされたポリシーを持つネットワークの重みを学習。次に、訓練データの20％を用いて、ネットワーク重みを固定し、ポリシーを最適化。 ⇒このとき、決定空間のサイズが指数関数的にスケールするので、カリキュラム学習を採用。 AdaShareにおけるカリキュラム学習決定空間を徐々に拡大し、訓練を安定させる。具体的には、𝑙番目(𝑙 < 𝐿)のエポックに対しては,最後の𝑙ブロックのポリシー分布のみを学習する。そして、𝑙が増加するにつれて追加ブロックの分布パラメータを徐々に学習し、Lエポック以降ですべてのブロックの結合分布を学習する。タスク間で各ブロックの重みを共有する形で、ネットワーク重みを学習させる。第２段階第１段階で学習した最良のポリシーを用いた上で、[Skip or Select] を学習する。 ※タスク数が増えた場合、新しいタスクに対してもL個の追加パラメータで済むため、スケーラブルなモデルになっている。 11

12.

４. 実験結果実験データ以下の３種類のデータセットで検証 • NYU v2データセット • CityScapesデータセット • Tiny-Taskonomy 比較ベースライン合計6つの異なるベースラインと比較する。・単一タスク：タスク固有のバックボーンとタスク固有のヘッドを使用して、各タスクを個別にトレーニング・マルチタスク：すべてのタスクがバックボーンネットワークを共有するが、最後に別々のタスク固有ヘッドを持つ一般的なマルチタスクベースライン。（Hard Parameter Sharing）・４つのSoft Parameter Sharing手法・Cross‐Stitch Networks ・Sluice Networks ・NDDRCNN：タスク固有のバックボーン間に幾つかの特徴融合層を採用・MTAN ：MTLのための共有バックボーン上にタスク固有注意モジュールを導入したを最先端MTL ※公平な比較のために、すべての方法(提案アプローチを含む)で同じバックボーンとタスク固有のヘッドを使用。バックボーンはDeeplab-ResNet、タスク固有ヘッドはASPPアーキテクチャを採用。 12

13.

４. 実験結果定性的評価 NYU v2 ： 3タスク学習の比較（Multi-task、MTAN、AdaShare） AdaShareは、セマンティックセグメンテーション（Seg）、表面法線予測（SN）、深度予測（Depth）で、より正確な予測と明確な輪郭を提供。（赤いボックスは関心領域） 13

14.

４. 実験結果定量的評価 NYU v2データセット２つのタスク（Semantic Segmentation、Surface Normal Prediction） • 7つの評価指標のうち４つで最高の精度を達成。 • パラメータ数を約半減させている。 14

15.

４. 実験結果定量的評価 CityScapesデータセット２つのタスク（Semantic Segmentation、Depth Prediction） 7つの評価指標のうち5つで最高の精度を達成。 1つの評価指標で2番目に優れた精度。 15

16.

４. 実験結果定量的評価 NYU v2 データセット３つのタスク（Semantic Seg、Surface Normal Prediction 、Depth Prediction）タスクが３つに増えるとパラメータ数は約1/3に減 10個の評価指標で最高の精度を達成。 16

17.

４. 実験結果定量的評価 Tiny-Taskonomy （5-Task Learning）タスクが５つに増えると約1/5程度のパラメータ数に削減。5つのタスクのうち3つでベースラインを上回る精度を達成。 17

18.

４. 実験結果ポリシーの視覚化とタスクの相関関係 • 学習したα𝑙𝑘 を4つの実験シナリオで三つのデータセット上に可視化。ブロックの濃さは、特定のタスクに対して選択されているブロックの確率を表す。AdaShareのポリシーUも表示。 • 例えば、NYU v2 2‐タスク学習 (a) では、Semantic SegmenationとSurface Normal Predictionのタスクについて、6ブロックを共有する。 • (e) は、タスク相関（タスク固有データセット間のコサイン類似性）を表示する。 18

19.

４. 実験結果 Ablation Studies （CityScapes 2-Task Learning ）ランダムポリシーとの比較 Random＃１：全てのタスクでスキップされた数と同じ数をランダムにスキップさせて精度を確認（各タスクごとにスキップされる数は制限しない） Random＃２：各タスクでスキップされた数と同じ数をランダムにスキップさせて精度を確認損失関数、カリキュラム学習の評価 w/o curriculum：カリキュラム学習 w/o 𝑳𝒔𝒑𝒂𝒓𝒔𝒊𝒕𝒚 ： 𝐿𝑠𝑝𝑎𝑟𝑠𝑖𝑡𝑦 の損失 w/o 𝑳𝒔𝒉𝒂𝒓𝒊𝒏𝒈 ： 𝐿𝑠ℎ𝑎𝑟𝑖𝑛𝑔 の損失をそれぞれ評価 ⇒各手法の有効性を確認 19

20.

４. 実験結果 Ablation Studies（Ablation Studies in NYU v2 3-Task Learning ） 20

21.

５. まとめ結論 • マルチタスク学習（MLT）における複数のタスクに渡る特徴共有ポリシーを決定するための、新たなアプローチを提示。 • 標準の逆伝播を利用して、重み共有ポリシーとネットワークの重みを共同で学習する。 • パラメータを大幅に減らしたコンパクトなマルチタスクネットワークを学習するための2つの正則化（𝐿𝑠𝑝𝑎𝑟𝑠𝑖𝑡𝑦 と𝐿𝑠ℎ𝑎𝑟𝑖𝑛𝑔 ）を導入し、複数のタスクに渡って高い精度を実現。 • 3つのベンチマークデータセットで有効性を実証。 21

22.

Appendix 参考文献 • • • • • • • • • [4] Yoshua Bengio, Jérôme Louradour, Ronan Collobert, and Jason Weston. Curriculum learning. In Proceedings of the 26th annual international conference on machine learning, pages 41–48. ACM, 2009. [10] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3213–3223, 2016. [15] Yuan Gao, Jiayi Ma, Mingbo Zhao, Wei Liu, and Alan L Yuille. Nddr-cnn: Layerwise feature fusing in multi-task cnns by neural discriminative dimensionality reduction. In CVPR, 2019. [20] Laurent Jacob, Jean-philippe Vert, and Francis R Bach. Clustered multi-task learning: A convex formulation. In NIPS, 2009. [23] Zhuoliang Kang, Kristen Grauman, and Fei Sha. Learning with whom to share in multi-task feature learning. In ICML, 2011. [31] Shikun Liu, Edward Johns, and Andrew J Davison. End-to-end multi-task learning with attention. In CVPR, 2019. [37] Pushmeet Kohli Nathan Silberman, Derek Hoiem and Rob Fergus. Indoor segmentation and support inference from rgbd images. In ECCV, 2012. [47] Trevor Standley, Amir R Zamir, Dawn Chen, Leonidas Guibas, Jitendra Malik, and Silvio Savarese. Which tasks should be learned together in multi-task learning? arXiv preprint arXiv:1905.07553, 2019. [60] Amir R Zamir, Alexander Sax, William Shen, Leonidas J Guibas, Jitendra Malik, and Silvio Savarese. Taskonomy: Disentangling task transfer learning. In CVPR, 2018. 22