ICML2017 参加報告会 山本康生

>100 Views

November 10, 17

スライド概要

The Report of the beneficial papers and the tutorial at ICML 2017 Sydney.

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

ICML 2017参加報告会 D&S サイエンス4部 山本 康生 yasuo yamamoto

2.

ICML とは ICML: International Conference on Machine Learning NIPSと並ぶ機械学習のトップカンファレンス 今年で34回目 開催期間:8/6〜8/11 場所:シドニー、オーストラリア 2

3.

シドニー・ダーリング・ハーバー 3

4.

前年度との比較 4 ICML 2016 ICML 2017 • • • • • • 4 Invited Talk • 434 out of 1676 accepted papers • 22 workshops • 9 tutorials • - attendees(未発表) 4 Invited Talk 322 accepted papers 23 workshops 9 tutorials 3,200 attendees

5.

会議の基本情報 チュートリアル(8/6) 本会議(8/7-8/9): • 9パラレルセッション+1パラレルポスターセッション • 発表者は口頭発表とポスターの両方を行う(前年同様) ワークショップ(8/10-8/11) アワード&招待講演: • 本会議中にアワードおよび4つの招待講演を開催 5

6.

採択論文のトピック別状況 深層学習:115 Talks 強化学習:78 Talks 継続学習:50 Talks ベイズ推定:43 Talks オンライン学習:34 Talks 教師あり学習:33 Talks ・・・・ (各トピックで重複を含みます。) 6

7.

アワード テストオブタイム賞(この10年で重要な発表) • Combining Online and Offline Knowledge in UCT ”Alpha Go”のブレイクスルーのもととなった研究 https://www.youtube.com/watch?v=Bm7zah_LrmE ベストオブペーパー • Understanding Black-box Predictions via Influence Functions 後ほどご紹介 7

8.

注目したキーノート 8 後ほどご紹介

9.

注目したチュートリアル • Deep Reinforcement Learning, Decision Making, and Control Sergey Levine, Chelsea Finn (UC Berkeley) https://sites.google.com/view/icml17deeprl 強化学習の基礎から最新の応用まで紹介 • Real World Interactive Learning Alekh Agarwal, John Langford (Microsoft Research) http://hunch.net/~rwil/ 継続的学習の重要性とマルチ・アームド・バンディッドで紹介 9

10.

所感 • 深層学習の勢力が衰えない • Deep Mind, Google, Microsoftなど主要なプレーヤーの存在が際 立っている • ジョージア工科大など北米の大学の存在も際立っている • AIに対する過剰な期待とはことなり、理論系では堅実に近似、最 適化、行列分解など基礎的な課題に取り組んでいる 10

11.

1 Understanding Black-box Predictions via Influence Functions ICML 2017@Sydney

12.

背景・提案 Understanding Black-box Predictions via Influence Functions 背景: • 深層学習を始めとして、予測精度は高いがその予測結果を説明す ることが難しい。 提案: • 評価用データではなく学習データを用いてモデルの評価を行う。 • 各学習データ・ポイントがモデルに与える影響を定式化する。 • 従来の統計手法 influence functions (Cook & Weisberg, 1980) を 現在のデータ規模に拡張する 12

13.

“influence functions” Understanding Black-box Predictions via Influence Functions 影響関数 “influence functions”: • モデル𝑭𝟎 における統計量𝑻 = 𝒕(𝑭𝒏 )の影響関数は観測値𝒙の関数とし て、次のように定義される。( 1.4 頑健統計学概説 p.59) 推定量T[𝐹0 ]が、観測点𝑥の追加で、 どれだけ変化するかを微小量として評価 “influence functions” 導入の障壁: • 計算コストの高い二次微分計算を必要とする。 • モデルの微分可能性と凸性を仮定している。 • しばしば、モデルが非微分可能で非凸で高次元である場合が多い。 13

14.

推定 Understanding Black-box Predictions via Influence Functions • 通常のパラメータの推定 • 学習データ・ポイント𝒛 = (𝒙, 𝒚)で重み付けした推定 • 損失関数𝓛が二次微分計算可能でかつ凸関数の場合”influence functions”は、 テスト学習データポイント𝑧𝑡𝑒𝑠𝑡 の勾配 14 ヘッセ行列 学習データ𝑧の勾配

15.

テスト学習データの影響比較 Understanding Black-box Predictions via Influence Functions ImageNet学習データで学習を行った、予測精 度が同一のモデルについて、それぞれの学習 モデルが学習データをどのように扱っているか 比較する。 比較対象 • RBF SVM • Inception-v3 モデル 予測 • 二値分類(魚vs犬) 学習データのプロット: • 15 緑:魚、赤:犬

16.

各モデルの特徴 Understanding Black-box Predictions via Influence Functions ④ ② ① RBF SVMの特徴 ①. Pixel間のユークリッド距離の差が識別に関 与していない。 ②. 同一ラベルの学習データが均等に識 別に関与している。 Inceptionの特徴 ③ ③. テスト学習データに近い学習データが 識別に大きな貢献している。 ④. 犬の背中も識別に貢献をしている。 16

17.

スケーリングの課題 Understanding Black-box Predictions via Influence Functions • Influence functionsが発表された時代はデータが少なかった。 • 現代は学習データが膨大で、ヘッセ行列𝑯𝜽 の計算コストが非常に高い。 • ヘッセ行列𝑯𝜽 を計算するのではなく、𝑯−𝟏 𝜽 𝒗を計算する 𝑯𝜽 17 [1] “Pearlmutter trick”, Pearlmutter, 1994 𝑯𝜽 𝑣 [2] “CG”, [3] “Taylor”, Martens, 2010 Agarwal, Bullins, Hazan, 2016 𝑯−𝟏 𝜽 𝒗

18.

微分不可能な場合への対処 Understanding Black-box Predictions via Influence Functions ・微分不可能な損失関数ℒはどのよに扱うの? 滑らかさを考慮したヒンジ損失関数𝑺𝒎𝒐𝒐𝒕𝒉𝑯𝒊𝒏𝒈𝒆(𝒔, 𝒕)を使用する。 𝒔: 𝒄𝒂𝒍𝒄𝒖𝒍𝒂𝒕𝒆𝒅 𝓘𝒖𝒑,𝒍𝒐𝒔𝒔 , 𝒕: 𝒔𝒎𝒐𝒐𝒕𝒉𝒏𝒆𝒔𝒔 18

19.

経験損失最小化 “empirical risk minimization” Understanding Black-box Predictions via Influence Functions 経験損失最小化の問題 ・損失関数ℒ(𝒛, 𝜽)と学習データ𝒛𝒕𝒆𝒔𝒕 で求めた経験損失𝓘𝒖𝒑,𝒍𝒐𝒔𝒔 を最小化すること で決定している。ただし、経験損失を最小化しても、期待損失が小さくなるとは限 らない。非凸性の問題。 局所最適化パラメータ𝜽を利用する。𝜽で再学習を行う。 i.e.) 𝝀: 𝒂 𝒅𝒂𝒎𝒑𝒊𝒏𝒈 𝒕𝒆𝒓𝒎 19 We checked the behavior of Iup,loss in a non-convergent, nonconvex setting by training a convolutional neural net-work for 500k iterations.5 The model had not converged and H˜θ was not PD, so we added a damping term with λ = 0.01.

20.

まとめ Understanding Black-box Predictions via Influence Functions • 学習モデルの振る舞いを学習データ・ポイントから判別するこ とができた。 • Influence functionsを効果的に使えるようになった。 • 学習モデルによい影響のある学習データを取捨ことが可能と なった。 • 手法を様々なBlack-box学習モデルへ適応することができる。 20

21.

2 Risk Bounds for Transferring Representations With and Without Fine-Tuning ICML 2017@Sydney

22.

背景・提案 Risk Bounds for Transferring Representations With and Without Fine-Tuning 背景: • 深層学習をはじめ、学習パラメータの再利用が盛んにお行われて いる。ただし、ソース・タスクとターゲット・タスク間での転移を保証 する尺度がない。 提案: • ソース・タスクの学習が完了している場合、ターゲット・タスクへの 転移リスクの上界値をVC次元基準で計算する。 22

23.

PAC学習 Risk Bounds for Transferring Representations With and Without Fine-Tuning PAC学習: • ”Probably Approximately Correct” 確率的近似学習。 • 仮説集合(モデルの候補)が有限の場合の学習可能性を扱う。 • ある程度よい学習をするために必要なデータ数を定式化。 • 危険率𝜹、汎化誤差𝝐、訓練データ数𝓵、仮説集合𝑯とした場合、 • 23 訓練データ数𝓵、仮説集合𝑯を固定した場合、危険率𝜹、汎化誤差𝝐の上界値 が求まる。

24.

VC次元 Risk Bounds for Transferring Representations With and Without Fine-Tuning VC次元: • ”Vapnik-Cherbonenkis” 。 • Vladimir Vapnik :VC次元、統計学習、SVM考案者の一人。 • PAC学習が扱っていた有限の仮説集合𝑯を無限とし、それをVC次元とする。 • VC次元とは、仮説集合𝑯に含まれる仮説を細分(shatter)できる点の数。 VC次元=3 24 VC dimension (From Wiki)

25.

用語 Risk Bounds for Transferring Representations With and Without Fine-Tuning 仮説集合 入力の確率:𝑷𝑺 , 𝑷𝑻 𝑺: 𝒔𝒐𝒖𝒓𝒄𝒆 𝒕𝒂𝒔𝒌, 𝑻: 𝒕𝒂𝒓𝒈𝒆𝒕 𝒕𝒂𝒔𝒌 損失の期待値: 経験損失(学習時): データ点:𝒎𝑺 , 𝒎𝑻 𝑓 𝑔 仮説集合𝑯のVC次元:𝒅𝑯 𝑋 25 𝑍 𝑌 = {−1,1}

26.

ソース・ドメイン・データの活用 Risk Bounds for Transferring Representations With and Without Fine-Tuning 転移学習の扱う状況 • • ラベル付きソース・ドメインのデータが大量にある。 ラベル付きターゲット・ドメインのデータが少ない。 ラベル付きソース・ドメイン・データの学習で𝒇を獲得する。 ソース・ドメインで得た𝒇からターゲット・ドメインの𝒈𝑻 を獲得するする。 ターゲット・ドメインの損失の上界値は𝟏 − 𝜷の確率のもとで「定理1」に従う。 定理1 𝜔:問題設定により決まる転移性の指標 26

27.

低層レイヤの有用性 Risk Bounds for Transferring Representations With and Without Fine-Tuning 低層レイヤの学習パラメータは両方のドメインで利用可能 転移性𝝎 𝑹 が汎化誤差𝜺と𝑐 ≥ 𝟏で定義される場合、 最小化したターゲット・ドメインの損失はソース・ドメインの転移性より小さくなる 定理2 27

28.

Fine-Tuning Risk Bounds for Transferring Representations With and Without Fine-Tuning 学習で得た𝑭が十分小さい場合、PAC-Bayesバウンドを仮説𝒉の汎化誤差に適応できる。 ターゲット・ドメインの損失𝑹𝑻 (𝒉)は𝟏 − 𝜷の確率のもとで「定理3」に従う。 定理3 全体の仮説とソースドメインの仮説のKLは ソースドメインの転移性より小さい 28

29.

損失の上界値とデータ数 Risk Bounds for Transferring Representations With and Without Fine-Tuning Fine-Tunedなし Fine-Tunedあり 29 • ターゲット・ドメインの期待損失が データ数とともに減少している。 • 転移を行った場合とそうでない場合 の違いも明確に表れている。

30.

まとめ Risk Bounds for Transferring Representations With and Without Fine-Tuning • 転移の保証をFine-tunedのある・なし両方で評価することに可能と なった。 • ソース・タスクの重みからの逸脱にペナルティを課し、より低層の 重みに対して厳格な正則化を提案した。(割愛) 課題 • CNNなどより深く複雑な構造のネットワークに対しての適応。 30

31.

3 Towards Reinforcement Learning in the Real World Keynote Speaker: Raia Hadsell (Deep Mind)

32.

About Speaker Towards Reinforcement Learning in the Real World Raia Hadsell 32 • シニア・リサーチ・サイエンティスト(Deep Mind) • 深層学習およびロボティクスの研究10年以上 • 多様体(manihold)学習、不変性学習を研究 • Yann LeCunのもとでPh.Dを取得 • Self-Supervised Deep Learningを研究 • Deep Mind(2014年〜) • AIエジェントおよびロボティクスの継続的学習の研究(現在)

33.

深層強化学習が拡大するAIの可能性 Towards Reinforcement Learning in the Real World • 自律的に学習を行うことが可能 • 複雑なタスクをこなすことが可能 • ATARI gamesなどでは人間のエキスパートを超えている • Fintechや広告の意思決定において応用がはじまっている 深層強化学習は、現時点で非常に高い性能を持っている! しかし、課題は多い= Deep Mindの取組み 33

34.

深層強化学習Deep Mindの8つの課題 Towards Reinforcement Learning in the Real World FeUdal Networks for Hierarchical RL, 2017 Learning to navigate in complex environments, 2017 34 Overcoming catastrophic forgetting in NNs, 2016 Progressive Neural Networks, 2016 Distral: Robust Multitask RL, 2017 Emergence of Learning and transfer RL with unsupervised Locomotion of modulated auxiliary tasks, Behaviours locomotor controllers, 2017 in Rich Environments, 2016 2017

35.

“FeUdal Networks for Hierarchical RL, 2017“ Towards Reinforcement Learning in the Real World FeUdal Networks for Hierarchical RL, 2017 Learning to navigate in complex environments, 2017 35 Overcoming catastrophic forgetting in NNs, 2016 Progressive Neural Networks, 2016 Distral: Robust Multitask RL, 2017 Emergence of Learning and transfer RL with unsupervised Locomotion of modulated auxiliary tasks, Behaviours locomotor controllers, 2017 in Rich Environments, 2016 2017

36.

“FeUdal Networks for Hierarchical RL, 2017“ Towards Reinforcement Learning in the Real World 背景: • 現実世界では短期的報酬と長期的報酬のバランスを考慮しなければな らない問題へ対処する必要がある。 提案: • マネージャとワーカーによる階層的強化学習のフレームワーク 著者: • 36 Alexander Sasha Vezhnevets, Simon Osindero, Tom Schaul, Nicolas Heess, Max Jaderberg, David Silver, Koray Kavukcuoglu

37.

“Overcoming catastrophic forgetting in NNs, 2016“ Towards Reinforcement Learning in the Real World FeUdal Networks for Hierarchical RL, 2017 Learning to navigate in complex environments, 2017 37 Overcoming catastrophic forgetting in NNs, 2016 Progressive Neural Networks, 2016 Distral: Robust Multitask RL, 2017 Emergence of Learning and transfer RL with unsupervised Locomotion of modulated auxiliary tasks, Behaviours locomotor controllers, 2017 in Rich Environments, 2016 2017

38.

“Overcoming catastrophic forgetting in NNs, 2016“ Towards Reinforcement Learning in the Real World 背景: • 現実世界では逐次的に発生する複数のタスクをこなす必要があるが、AIは一つのタ スクを学習すると他のタスクに関する情報を破滅的忘却 “catastrophic forgetting”し てしまう。 提案: • Elastic Weight Consolidation(EWC)という手法で、以前のタスクで重要であった特定 の重みの学習を遅くし忘却を防ぐ。 著者: • 38 James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A. Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, Demis Hassabis, Claudia Clopath, Dharshan Kumaran, Raia Hadsell

39.

“Progressive Neural Networks, 2016“ Towards Reinforcement Learning in the Real World FeUdal Networks for Hierarchical RL, 2017 Learning to navigate in complex environments, 2017 39 Overcoming catastrophic forgetting in NNs, 2016 Progressive Neural Networks, 2016 Distral: Robust Multitask RL, 2017 Emergence of Learning and transfer RL with unsupervised Locomotion of modulated auxiliary tasks, Behaviours locomotor controllers, 2017 in Rich Environments, 2016 2017

40.

“Progressive Neural Networks, 2016“ Towards Reinforcement Learning in the Real World 背景: • 現実世界では知識の積み重ねにより複雑な一連のタスクを処理する必要が ある。 提案: • 知識の転用を活用し、致命的な忘却を回避する。具体的にはプレトレーニン グ・ネットワークを別途保持し、ファインチューニングで得た重みを足し合わせ ネットワークを用意する。 著者: • 40 Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia Hadsell

41.

“Distral: Robust Multitask RL, 2017“ Towards Reinforcement Learning in the Real World FeUdal Networks for Hierarchical RL, 2017 Learning to navigate in complex environments, 2017 41 Overcoming catastrophic forgetting in NNs, 2016 Progressive Neural Networks, 2016 Distral: Robust Multitask RL, 2017 Emergence of Learning and transfer RL with unsupervised Locomotion of modulated auxiliary tasks, Behaviours locomotor controllers, 2017 in Rich Environments, 2016 2017

42.

“Distral: Robust Multitask RL, 2017“ Towards Reinforcement Learning in the Real World 背景: • 現実世界から情報を潤沢に得ることが可能であった場合、AIは非効率的にすべての情報を 処理する深層学習ネットワークを個別に構成してしまう。さらに個別に構成されたネットワーク 間では勾配計算が干渉しあってパラメータの共有も不可能。 提案: • Distral = Distill”蒸留”とTransfer Learning”転移学習”と呼ばれる複数のタスクの共同訓練の ためのフレームワークを提案。具体的には、個別タスクに共通する挙動を蒸留モデルに抽出。 蒸留モデルが規範となり、転移学習を促進する。 著者: • 42 Yee Whye Teh, Victor Bapst, Wojciech Marian Czarnecki, John Quan, James Kirkpatrick, Raia Hadsell, Nicolas Heess, Razvan Pascanu

43.

“Learning to navigate in complex environments, 2017“ Towards Reinforcement Learning in the Real World FeUdal Networks for Hierarchical RL, 2017 Learning to navigate in complex environments, 2017 43 Overcoming catastrophic forgetting in NNs, 2016 Progressive Neural Networks, 2016 Distral: Robust Multitask RL, 2017 Emergence of Learning and transfer RL with unsupervised Locomotion of modulated auxiliary tasks, Behaviours locomotor controllers, 2017 in Rich Environments, 2016 2017

44.

“Learning to navigate in complex environments, 2017“ Towards Reinforcement Learning in the Real World 背景: • 人間は動的に変化する状況下でも、環境を把握して目的を達成することができる。し かしAIは、ゴール位置が頻繁に変わる迷路などでは、その変化を把握することが困 難となり目的を達成できない。 提案: • 人間がマルチモーダルな知覚入力を利用するように、追加の補助タスクを利用する。 特に、迷路などでは補助深度予測やループ閉包分類タスクを利用する。 著者: • 44 Piotr Mirowski, Razvan Pascanu, Fabio Viola, Hubert Soyer, Andrew J. Ballard, Andrea Banino, Misha Denil, Ross Goroshin, Laurent Sifre, Koray Kavukcuoglu, Dharshan Kumaran, Raia Hadsell

45.

“RL with unsupervised auxiliary tasks, 2017“ Towards Reinforcement Learning in the Real World FeUdal Networks for Hierarchical RL, 2017 Learning to navigate in complex environments, 2017 45 Overcoming catastrophic forgetting in NNs, 2016 Progressive Neural Networks, 2016 Distral: Robust Multitask RL, 2017 Emergence of Learning and transfer RL with unsupervised Locomotion of modulated auxiliary tasks, Behaviours locomotor controllers, 2017 in Rich Environments, 2016 2017

46.

“RL with unsupervised auxiliary tasks, 2017“ Towards Reinforcement Learning in the Real World 背景: • 深層強化学習のエージェントは、累積報酬を直接最大化することで結果を達 成している。しかし、環境には多様な学習に使える情報が含まれている。 提案: • 多くの疑似報酬関数を定義し、それらを同時に最大化するエージェントを提案。 著者: • 46 Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul, Joel Z Leibo, David Silver, Koray Kavukcuoglu

47.

“Learning and transfer of modulated locomotor controllers, 2016“ Towards Reinforcement Learning in the Real World FeUdal Networks for Hierarchical RL, 2017 Learning to navigate in complex environments, 2017 47 Overcoming catastrophic forgetting in NNs, 2016 Progressive Neural Networks, 2016 Distral: Robust Multitask RL, 2017 Emergence of Learning and transfer RL with unsupervised Locomotion of modulated auxiliary tasks, Behaviours locomotor controllers, 2017 in Rich Environments, 2016 2017

48.

“Learning and transfer of modulated locomotor controllers, 2016“ Towards Reinforcement Learning in the Real World 背景: • 環境からすべての情報を得て学習を行う場合、膨大な探索が必要となる。 提案: • 移動作業タスクにおいて、事前に簡単なタスク(センサーモーター・プリミティ ブ)を学習させる。この事前学習されたモジュールにより、疎な報酬から学ぶ ために必要な効果的な探索が可能となる。 https://www.youtube.com/watch?v=sboPYvhpraQ&feature=youtu.be 著者: • 48 Nicolas Heess, Greg Wayne, Yuval Tassa, Timothy Lillicrap, Martin Riedmiller, David Silver

49.

“Emergence of Locomotion Behaviours in Rich Environments,2017“ Towards Reinforcement Learning in the Real World FeUdal Networks for Hierarchical RL, 2017 Learning to navigate in complex environments, 2017 49 Overcoming catastrophic forgetting in NNs, 2016 Progressive Neural Networks, 2016 Distral: Robust Multitask RL, 2017 Emergence of Learning and transfer RL with unsupervised Locomotion of modulated auxiliary tasks, Behaviours locomotor controllers, 2017 in Rich Environments, 2016 2017

50.

“Emergence of Locomotion Behaviours in Rich Environments,2017“ Towards Reinforcement Learning in the Real World 背景: • 強化学習は、複雑な動作を簡単な信号報酬から直接学習することになっているが現 実の問題への適応時には報酬関数を手作業で設計している。 提案: • 豊かな環境が複雑な行動の学習を促進するためにどのように役立つのかを探索す る。具体的には、さまざまな環境の中でエージェントを訓練し、これにより、一連のタ スクを効率的に実行する堅牢な振る舞いの出現を促す。 https://www.youtube.com/watch?v=hx_bgoTF7bs&feature=youtu.be 著者: • 50 Nicolas Heess, Dhruva TB, Srinivasan Sriram, Jay Lemmon, Josh Merel, Greg Wayne, Yuval Tassa, Tom Erez, Ziyu Wang, S. M. Ali Eslami, Martin Riedmiller, David Silver