【DL輪読会】In deep reinforcement learning, a pruned network is a good network

2.2K Views

March 08, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.63MB)

関連スライド

各ページのテキスト

DEEP LEARNING JP [DL Papers] In deep reinforcement learning, a pruned network is a good network Presenter: Takahiro Maeda D3 (Toyota Technological Institute) http://deeplearning.jp/

http://deeplearning.jp/

目次 1. 2. 3. 4. 5. 6. 7. 8. 書誌情報概要研究背景 Gradual Magnitude Pruningとは実験条件実験結果解析考察・所感 2

1. 書誌情報 2024/02/24にArxivに投稿 ※特に明示が無い場合は，紹介論文，動画から引用 3

2. 概要 • 深層強化学習でpruningがパラメータ効率を上げることを確認 – Gradual Magnitude Pruning (GMP) が有効 – Scaling Lawを示唆する実験結果を得た？（右下） – GMPを正則化とplasticityで解析 – Atari 100kの60タスクで検証 • CNNベースのモデルのみで実験 4

3. 研究背景 • 2017年に提案されたGradual Magnitude Pruning (GMP) は，物体検出CNNの性能を保ちつつ9割程度のパラメータを削減[1] • 2022年の論文ではGMPをCNNベースの強化学習モデルに適用すると， 50％程度の性能向上を確認[2] • 紹介論文では，強化学習全般でGMPによる性能向上を確認 • Scaling Lawを一部で確認 5

4. Gradual Magnitude Pruningとは • Gradual Magnitude Pruning (ICML workshop 2017 [1]) – 学習初期：全パラメータを学習 – 学習中期：枝刈り率を徐々に増やす (gradual) 各層ごとに重みが小さいweightから0に固定 (magnitude pruning) – 学習末期：枝刈り終了後もしばらく学習継続 – 枝刈り率（st , sparsity)のスケジュール 6

5. 実験条件 • パラメータ数，最終枝刈り率，枝刈り率スケジュールを変化 • Low dataの場合の性能 • Offline RL, Actor-Critic手法での性能 7

6. 実験結果 • パラメータ数，枝刈り率による性能変化(Online RL) 性能とパラメータ数性能と最終枝刈り率従来は強化学習で見られなかったScaling Lawを GMPにより得られた？枝刈り割合は95%程度がよい 8

6. 実験結果 • 枝刈り率スケジュールによる性能比較 (Online RL) 比較する枝刈り率スケジュール性能と枝刈りスケジュール枝刈り率スケジュールによって • 学習途中の性能は大きく変化する • 学習終了後の性能は最終枝刈り率に依存してそう 9

10.

6. 実験結果 • Low data regimeでの性能比較 (Online RL) – DrQ(𝜖)[3], Data Efficient Rainbow（DER）[4]を使用 DrQ(𝜖)の学習フレーム数による性能変化 DERの学習フレーム数による性能変化 Low data 少数データの制約を入れると，GMPは効果なし 10

11.

6. 実験結果 • Offline RLでの性能比較 – Conservative Q-Learning (CQL) [5], CQL+C51[6]を使用 CQLの更新回数による性能変化 CQL+C51の更新回数による性能変化パラメータ数が大きい場合では，Offline RLでも効果あり 11

12.

6. 実験結果 • Q-learningではないActor-Critic手法での性能比較 – Soft Actor Critic[7]を使用 Actor Critic系手法でも性能向上を確認 12

13.

7. 解析 • 性能向上の考察のため，学習過程を解析 Q値の分散低下 Weightのノルム低下正則化の効果あり有効ランク数（固有値が一定以上のランク数）増加休眠ニューロン数（activationがほぼ0のweight）減少 Plasticity向上の効果あり 13

14.

7. 解析 • Plasticity （可塑性）とは – 学習済みタスクに，新しいタスクの学習が悪く影響されないこと[8] – Continual Learning, Transfer Learning, Reinforcement Learningで重要教師付き学習初期化状態強化学習初期化状態（目的タスクは1つ，例：画像認識）画像認識学習済み（目的タスク複数，例：pick&place 物体把持-移動-置く）把持学習把持＆移動学習 Plasticity必要把持&移動&置く学習 Plasticity必要 14

15.

16.

8. 考察・所感 • Plasticityという概念が勉強になった • CNN以外のモデル構造（MLP, Transformer)でも GMPが有効かどうかは要検証 • 流行りのDiffusion Policyなどは模倣学習（教師付き学習）のため plasticityは問題にならなかった – 今後，Online RLがスケーリングした場合，強さが逆転するかも？ 16

17.

引用 • [1] Zhu, Michael, and Suyog Gupta. "To prune, or not to prune: exploring the efficacy of pruning for model compression." ICLR 2018 workshop • [2] Graesser, Laura, et al. "The state of sparse training in deep reinforcement learning." International Conference on Machine Learning. ICML 2022. • [3] Agarwal, Rishabh, et al. "Deep reinforcement learning at the edge of the statistical precipice." NeurIPS 2021. 17

18.

引用 • [4] Van Hasselt, Hado P., Matteo Hessel, and John Aslanides. "When to use parametric models in reinforcement learning?." NeurIPS 2019. • [5] Kumar, Aviral, et al. "Conservative q-learning for offline reinforcement learning." NeurIPS 2020. • [6] Kumar, Aviral, et al. "Offline q-learning on diverse multi-task data both scales and generalizes." ICLR 2022 18

19.

引用 • [7] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." ICML 2018 • [8] Berariu, Tudor, et al. "A study on the plasticity of neural networks." arXiv preprint arXiv:2106.00042 (2021). 19

【DL輪読会】In deep reinforcement learning, a pruned network is a good network

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト