[DL輪読会]機械学習におけるカオス現象について

160 Views

May 10, 19

deep learning

スライド概要

2019/04/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト

機械学習におけるカオス現象について冨山翔司

今日発表する論文 • PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos – ICML2018 • 著者:Paavo Parmas, Carl Edward Rasmussen, Jan Peters, Kenji Doya – OIST • 選定理由 – 著者から直接発表を聞き、面白いと思ったから • プラス、A RECURRENT NEURAL NETWORK WITHOUT CHAOS[2]を少し説明します。 – ICLR 2017 • （普段興味ある分野と少し違うので、違和感あったらご指摘を） 2

カオス現象 • 非線型変換を含む動的システムが、初期値のわずかな摂動に対し、一定時間後に大きな挙動の差を生み出す – カオス振り子 • https://www.youtube.com/watch?v=2bGAKPxQkDk 3

https://www.youtube.com/watch?v=2bGAKPxQkDk

機械学習で非線型変換を繰り返し用いるシーン • 結構ある – RNN – Model-based RL – World models系 • 勾配爆発に関しては議論されているが、カオスな振る舞いによる弊害はあまり議論されていない気がする – わずかな摂動で未来の状態が大きく変わるようなモデルをちゃんと最適化できるのか？ 4

A RECURRENT NEURAL NETWORK WITHOUT CHAOS • LSTMやGRUがカオス現象によって長期の依存を捉えられないことを実験的に示し、より単純なモデルでLSTM並みの精度を出せることを示した – 軽くまとめたものなので、カオス現象が機械学習に悪影響を与える一例としてみてもらえると。 5

LSTMのカオスな振る舞い • LSTMのℎ0と𝑐0をサンプリングし、そこに摂動（[-10^-7, 10^-7]）を加えて100,000 個の初期状態を作り、入力を与えずに同一の再帰パラメータで200タイムステップ進めた時の、最終状態のマップ（左）と、摂動を与えない時の状態と摂動を与えた時の状態との差（右） – aでは、わずかな摂動が200タイムステップ後に大きな状態の差になることがわかる – bでは、途中から摂動を与えない時の状態と与えた時の状態で大きく差が生まれることがわかる 6

LSTMのカオスな振る舞い訓練させたLSTMの場合 • Penn Treebankで訓練させたLSTMの振る舞い • 左図は、入力を一切与えない時の、ある隠れ状態に摂動を与えた時と与えない時の振る舞い – 途中から両者の状態に差が生まれ、またどちらも収束しない • 右図は、大きく異なる二つの隠れ状態初期値から、同一の入力を与えた時の軌道 – 途中から両者の状態はほぼ同一になる • つまり、動的システムはほぼ入力情報に支配されており、隠れ状態は長期依存を捕捉できていない 7

Chaos-Free Network • GRUのℎ෠ 𝑡 を求めないバージョン • これを使うと、入力が何もない時に隠れ状態は0に向かっていき、カオス現象を抑えることができる 8

Chaos-Free Network • Penn Treebankでt=1000で入力を辞めた時のCFNの状態の振る舞い – ゼロに向かって減衰する – 二層目の方が減衰が遅い＝層を重ねることで長期記憶を獲得できる？ • LSTMなどのゲートを使うよりもこのほうがいいのかもしれない？ 9

10.

実験結果 • LSTMと同等かやや劣る – より長期依存が必要なタスクだったら勝てたかも（筆者談） 10

11.

PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos • Model-based RLにおいて、モデルを繰り返し適用することによってカオス現象が起こることを実験的に示した。 • この時、リパラをつかって勾配を求めると勾配の分散が爆発し、まともな最適化ができないことを示した。 • カオスにロバストな形で、確率的なモデルに対して粒子ベースで方策を学習できるフレームワークを提案 11

12.

PILCO • Probabilistic Inference for Learning Control – モデルベース強化学習手法の一つ – 初期状態をガウス分布として表現し、モデルにガウス過程を用い、次状態の分布をモーメントマッチングによって解析的にガウス分布に近似する • 利点 – モデルが不確実性を考慮できる • 欠点 – モーメントマッチングは使える状況が限られる • e.g. モデルにNNを用いることができない 12

13.

Particle samplingによるPILCO • 状態を分布として表すと、使えるダイナミクスのモデルが限られる（＝次状態を解析的に求められる必要がある）ので、分布から粒子をサンプリングして、そいつらの遷移を追っていっていけばよいのでは？ – 確率的な部分はreparameterization trickを用いれば良さそう • しかしこれはうまくいかないことが過去の研究から実験的に知られている！ • なぜ？？？？？？ 13

14.

カオスな振る舞いによる、勾配の分散の爆発 • 図(a)：Cart-poleで、1,000の粒子（初期状態）を発生させ、ダイナミクスモデルから軌道を生成し、その時の報酬値を記録。方策のパラメータをある方向に変えていった時の報酬値をプロット。 • 図(d)：図(a)のとき、リパラして求めた各粒子の勾配の95%信頼区間と、真の勾配 • あるパラメータ領域で勾配の分散が爆発する – こういった領域では、粒子サンプリングではまずまともな勾配が手に入らない 14

15.

カオスによって引き起こされる初期状態と得られる報酬の不安定性 • 初期状態ごとに、最終的に得られる報酬をプロット – それぞれの状態ごとに４つの粒子（それぞれ異なるリパラ時のノイズ）を発生させ、その報酬の平均値に従って色付け • 勾配の分散が爆発している時（右図）、近傍の初期状態で報酬が鋭敏に変化している • 一方、勾配の分散が爆発していない時（左図）は、近傍の初期状態で同じような報酬を得られている。 15

16.

Likelihood ratioとreparametarization RP: 𝜕𝑉 𝜕𝜃 = 𝜕𝑥 𝑑𝜃 𝜕𝑉 𝑑𝑥 LR: 𝜕𝑉 𝜕𝜃 =𝑉 𝑑log 𝑝(𝑥) 𝑑𝜃 • Likelihood Ratio(LR)のほうが、リパラよりも勾配の分散が小さい！ – 勾配計算時、リパラは報酬の微分を用いるが、Likelihood ratioは報酬の値を用いるからだと推測される • とはいえ、カオスがなければリパラの方が勾配の分散は小さいはずじゃない？（e.g. VAE） – うまくLRとリパラを組み合わせられないか？ 16

17.

A classical result • 二つの独立の推定器がある時、両者の推定器の分散の逆数で足し合わせる時、最適な推定ができる。 𝜇 = 𝜇𝐿𝑅 𝑘𝐿𝑅 + 𝜇𝑅𝑃 𝑘𝑅𝑃 −2 𝜎𝐿𝑅 𝑘𝐿𝑅 = −2 −2 , 𝑘𝑅𝑃 = 1 − 𝑘𝐿𝑅 𝜎𝐿𝑅 + 𝜎𝑅𝑃 17

18.

Total Propagation Algorithm • バックワード時、それぞれの粒子について、各タイムステップにおけるLRとRP の勾配とその分散を求め、両者を足し合わせていく – 短いパス（＝カオスな振る舞いが起こらない）におけるRPの勾配をうまく用いることができる！ 18

19.

LRとRPとTotal propagation • 先と同様の実験。TPが最も勾配の分散が小さい 19

20.

LRとRPとTotal propagation • TPが一番分散が小さい • (b)では、リパラの分散は発散しているため、図から消えている – 発散しているにも関わらず、短いパスの勾配推定結果（＝発散していない勾配）を組み込めるTotal Propagationは、ベースラインに比べて改善を見せている 20

21.

実験：実際に学習させてみる • PILCOを、粒子ベース版PILCOと比較 – 方策はRBFネットワーク – モデルはGP • サンプリング時、𝑦 = 𝑓 𝑥 + 𝜖 where 𝜖~𝑁(0,𝜎𝑓2 𝑥 + 𝜎𝑛2 )によっておこなう。 𝜎𝑓2 𝑥 は学習された分散で、 𝜎𝑛2 はその他の要因によるノイズ（e.g. 観測ノイズ） • Cart-poleとUnicycleで、シミュレーションを用いて実験 – コストとして、Angle costとTip costを二パターンを検証 • Tip costはどっちまわりで上がっても平気で、Angle costは片方の回り方だけ • 示したいことは、粒子サンプリングによるPILCOが、カオス現象による勾配爆発を抑えることでちゃんと機能する、ということ 21

22.

定量評価：Cart-pole • PILCOは外乱ノイズが乗るとうまくいかない – モーメントマッチング時の近似誤差が蓄積されていくから – 粒子ベースの手法は問題ない • RPはうまくいかない • 粒子ベースの場合ノイズは程よくあった方が良い – うまくばらけた方が良い勾配を見つけられるということ？ • Tip Costのときは、PILCOとGR(Gaussian Resampling)が良い – 本来bi-modalの問題を、uni-modalに無理やりするので問題が簡単になる？ 22

23.

定量評価：Cart-pole, unicycle balancing • PILCOとTPはどちらも同じくらいの試行回数で収束 • Unicycle balancingでPILCOと大体同じくらい 23

24.

感想 • カオス現象は学習に悪影響を与えることがあるんだなぁ • PIPPSはモデルベースRLのみを考えているが、他のケースにも色々応用できそう • RNNの先は暗そう・・・ 24

[DL輪読会]機械学習におけるカオス現象について

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト