[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介

>100 Views

December 20, 19

スライド概要

2019/12/20
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Convolutional Conditional Neural Processes と Neural Processes Family の紹介 Makoto Kawano(@mkt_kwn), Matsuo Lab. http://deeplearning.jp/

2.

書誌情報&謝辞 著者情報: X Jonathan Gordon, Wessel P. Bruinsma, Andrew Y. K. Foong, James Requeima, Yann Dubois, Richard E. Turner X University of Cambridge, Invenia Labs, Microsoft Research ICLR2020(8, 8, 6) 選定理由: X とりあえず強い X とにかく強い X ただただ強い 謝辞 X 本論文の理解及び発表資料作成するにあたって,貴重な時間を割いて議論していた だいた理研 AIP の熊谷亘氏と松井孝太氏に感謝いたします. 1/49

3.

補足 今回の論文 ConvCNP を発表するにあたって,Neural Process から説明しますが,よ り詳細を知りたい方は,過去の資料を参照していただけると幸いです (リンク埋め込み済,クリックしてもらえれば) Conditional Neural Processes Attentive Neural Processes NP Family の実装について 2/49

4.

研究概要 様々なドメインに対し,Neural Process は利用されている 時系列データや空間データ,欠損した画像データなど Translation equivariance(平行移動等価性) の考慮が理想 データが時空間方向に平行移動した場合,予測も同様の平行移動をする 帰納的バイアスとして NP のモデル仮説に組み込まれるべき 現状,データセットからこの性質を学習させており,汎化の面で非効率的 X サンプリング及びパラメータ数の面でもよくない 3/49

5.

研究概要 Translation equivariance を組み込むには畳み込み構造が一番良い CNN は,MLP に translation equivariance を追加 CNN のように NP に畳み込み構造は素直には入れられない (i) CNN への入力データは “格子状” である必要あり (ii) NP は部分的に観測された集合に対し演算可能だが,CNN は一般には無理 (iii) 入力の平行移動に関する等価性が自然ではない有限次元ベクトル空間へ 集合を埋め込む 関数表現を含むように集合における学習理論を拡張することで, translation equivariance を NP が考慮できるようになり解決する 4/49

6.

アウトライン 1. Neural Process Family 1.1 Neural Process 1.2 (Conditional) Neural Processes 1.3 Attentive Neural Processes (AttnNPs) 1.4 Functional Neural Process 2. Convolutional Deep Sets 2.1 Permutation Invariant 2.2 Translation Equivalence 2.3 Representaions of Translation Equivariant Functions on Sets 3. Convolutional Conditional Neural Processes 3.1 φ の形式について 3.2 off-the-grid 時 3.3 on-the-grid 時 4. 実験 4.1 Synthetic 1D データセット 4.2 PLAsTiCC データセット 4.3 Predator-Prey モデル:SIM2REAL 4.4 2D 画像補完 5/49

7.

Notation 入力空間:X = Rd 0 出力空間:Y ⊆ Rd (Y はコンパクト) X 扱いやすくするため,スカラー出力 Y ⊆ R とする M 個の入出力ペアの集合族 (系):ZM = (X × Y)M S 高々 M ペアの集合族 (系):Z≤M = M ZM S∞ m=1 有限個ペアの集合族 (系):Z = m=1 ZM X 後述の Z における permutation invariant を考えるため, Z の元 Z は集合かデータセットとして言及 [n] = {1, . . . , n} X n までの自然数 7/49

8.

Neural Process Neural process Context 集合 Z = {xm , ym }M m=1 が観測されたとき, 入力 x における出力 y の条件付き確率 p(y|x, Z, θ) をパラメータ θ でモデル化 GP のように不確実性を扱うことができるような深層生成モデル NP の利用可能先: X メタ学習 • テスト時に新しいコンテクスト集合から予測を生成することが可能 X マルチタスク学習及び転移学習 • データセット間の情報を自然な形で共有することが可能 8/49

9.

(Conditional) Neural Processes [Garnelo et al., 2018a][Garnelo et al., 2018b] CNPs では,条件付き分布 p(y|x, Z) = p(y|Φ(x, Z), θ) を予測するモデル Φ:エンコーダ E : Z → Re と ρ : Re → Cb (X , Y) の合成 ρ ◦ E で構成 E(Z) ∈ Re は,集合 Z のベクトル表現 Cb (X , Y) は,X → Y である一様ノルムをもつ連続な有界関数空間 Neural Process の場合: E(Z) を再パラメータ化して 潜在変数 h を利用 q(h|E(Z)) をモデル化 目的関数: CNPs:尤度最大化 NPs:尤度最大化+ KL 項 9/49

10.

(Conditional) Neural Processes の課題 GP のように予測における不確実性を捉えることができる NP Multihead ANP Oracle GP 一方で課題がいくつか残っている: 観測点における under-fitting ⇔ 予測点における over-confidence 非滑らかさ 深層学習ならではの理論的保証がないなど 10/49

11.

Attentive Neural Processes (AttnNPs) [Kim et al., 2019] Attention 機構を Neural Process に持たせる 観測点と予測点の関係性 (類似性) を考慮してないからダメ ガウス過程では,ガウスカーネルによってこの帰納的バイアスを取り入れている Attention を使うことで解決 11/49

12.

Functional Neural Process [Louizos et al., 2019] 大域的な潜在変数ではなく,局所的な潜在変数同士の関係性をグラフで表現 Q 入力点の潜在変数同士を積で表現: pθ (U |X) = i∈B pθ (ui |xi ) 潜在変数同士の関係性をグラフで構築 X inducing pointsR(赤領域) における DAG X R から M = Dx \R(点線) への二部グラフ R pθ (yB , ZB |R, G, A) dZB を求める 12/49

13.

Neural Process のまとめ 観測点が与えられたときの条件付き分布を予測する深層生成モデル ガウス過程のように予測の不確実性を捉えることができる 転移学習やメタ学習などにも応用可能 一部の意思決定関係の応用タスクでは GP より性能上 [Galashov et al., 2019] 一方で,未解決部分は多い 観測点において under-fitting が起きてしまう 滑らかさがない 観測点数 n → ∞ のときの一致性などが保証されていない なんらかの形で Neural process に帰納的バイアスを持たせることが大事 13/49

14.

Permutation Invariant (置換不変) 予測したいのは,複数の観測点集合が表現している関数 E :データ点ではなく集合を入力として受け付ける関数 集合の元には順序はなく,観測点の順番に対し,不変であるべき 性質 1:Sn -invariant と S-invariant [Zaheer et al., 2017] Sn を n ∈ N である n 個の順列集合とする.Zn の関数 Φ は, Φ(Zn ) = Φ(πZn ) for all π ∈ Sn and Zn ∈ Zn , であるとき,Sn -invariant と呼ぶ.ただし,Zn への π 適用は, πZn = ((xπ(1) , yπ(1) ), . . . , (xπ(n) , yπ(n) )) と定義される. また,制約 Φ|Zn が全ての n で Sn -invariant であるとき,Z における関数 Φ は, S-invariant という. 15/49

15.

Permutation Invariant を持つ関数 Deep Sets DeepSets [Zaheer et al., 2017] 任意の S-invariant な連続関数 f : Zn → R は,和分解可能 i.e. 適当な ρ と φ があるとき,f (Z) = ρ P z∈Z  φ(z) と表現できる (観測されたデータ点) 集合を潜在表現に埋め込む encoder として多くの NPs で採用 GQN では,和を使っている X GQN は,NP の特殊なケースと見なすことが可能 Neural process では,和ではなく平均を使っている 16/49

16.

Translation Equivalence (平行移動等価性) もしデータの入力位置が τ だけ平行移動したら,出力も同様に平行移動してほしい CNN の性能が良いのは,この性質を持つため [Kondor and Trivedi, 2018, Cohen and Welling, 2016] 性質 2:集合における平行移動に対し等価な写像 H を X 上の関数空間とし,T と T 0 を次のように定義する: T : X × Z → Z, 0 T : X × H → H, Tτ Z = ((x1 + τ , y1 ), . . . , (xm + τ , ym )), Tτ0 h(x) = h(x − τ ). 写像 Φ : Z → H が, Φ(Tτ Z) = Tτ0 Φ(Z) for all τ ∈ X and Z ∈ Z. であるとき,translation equivariance を持つ. 17/49

17.

Neural Process のエンコーダにおける Translation Equivariance 既存 NP による集合 Z のベクトル空間 Rd への写像では,X の入力平行移動に関する 等価性は well-defined ではない X 上の関数 f は τ ∈ X : f (· − τ ) で平行移動可能 一方,ベクトル x ∈ Rd を関数 [d] → R,x(i) = xi とみなすと,平行移動 x(· − τ ) は well-defined ではない エンコーダ E : Z → H を X 上の関数を含む (関数) 空間 H に写像するように拡張 H 上の関数は X から写像されるため,E(Z) における translation equivariance を定義可能 18/49

18.

Multiplicity (重複度) 定義 2:Multiplicity 系 Z 0 ⊆ Z について,各集合 Z ∈ Z 0 に含まれる各 x が高々 K 回出現するとき: 0 mult Z 0 := sup { sup { | { i ∈ [m] : xi = x̂ } | : x̂ = x1 , . . . , xm } : (xi , yi )m i=1 ∈ Z } | {z } number of times every x occurs =K Z 0 は multiplicityK を持つという.ただし,[m] = { 1, . . . , m } 例えば:時系列や画像などの実世界データ 一ヶ所の入力位置につき,一つの (多次元である) 観測であることが多い = multiplicity 1 に一致 (ほとんど 1 であることが多い) 19/49

19.

主定理:ConvDeepSet 定理 1:連続かつ translation equivariant な関数 ConvDeepSet 0 重複度が K である適切な集合系 (族)Z≤M ⊆ Z≤M を考える.H を E の像を含む関 数空間とし,連続で translation equivariant な関数 ρ : H → Cb (X , Y) と,連続であ る φ : Y → RK+1 ,ψ : X → R が Φ(Z) = ρ (E(Z)) , E((x1 , y1 ), . . . , (xm , ym )) = m X φ(yi )ψ(· − xi ) i=1 0 という形を持つとき (①),関数 Φ : Z≤M → Cb (X , Y) が,連続かつ permutation invariant/translation equivariant であること (②) と同値である. この関数 Φ を ConvDeepSet と呼ぶ. 20/49

20.

定理 1 証明のための補題 1. 商位相空間 An /Sn を定義 X x を並び替えた y の関係を x ∼ y とし,∼ の同値類の集合系 (族) を An /Sn とする 0 ] → H が同相写像である (補題 1 と補題 2) 2. この位相空間で,E : [ZM M X 集合系の要素数は M に固定 0 3. 元の数が ≤ M な集合でも E : [Z≤M ] → H≤M が同相写像である (補題 3) X E は全単射であり,逆写像 E −1 が存在 0 4. Φ : [Z≤M → Cb (X , Y)] を連続な関数だとすると, Φ ◦ E −1 : H≤M → Cb (X , Y) は連続となる (補題 4) 21/49

21.

定理 1 の証明 ① ⇒ ② (十分条件) P まず が可換則と結合則をもつため,Φ は permutation invariant である.次に, Φ 及び ρ が translation equivariant であることは,直接確認できる: ! M X Φ(Tτ Z) = ρ φ(yi )ψ(· − (xi + τ )) =ρ i=1 M X ! φ(yi )ψ((· − τ ) − xi ) i=1 =ρ M X ! φ(yi )ψ(· − xi ) (· − τ ) i=1 = Φ(Z)(· − τ ) = Tτ0 Φ(Z). 22/49

22.

定理 1 の証明 ② ⇒ ① (必要条件) 0 ] は連続であるもとで) Φ は permutation invariant であることを用いて,(制限 Φ|[Zm Φ: M [ 0 [Zm ] → Cb (X , Y), Φ(Z) = Φ([Z]) m=1 を定義する.補題 3 により,E は逆写像を持つことから,[Z] = E −1 (E([Z])) であ る.ゆえに, ! M X −1 −1 Φ(Z) = Φ([Z]) = Φ(E (E([Z]))) = (Φ ◦ E ) φ(yi )ψ(· − xi ) i=1 である. 23/49

23.

定理 1 の証明 ② ⇒ ① (必要条件) の続き ρ = Φ ◦ E −1 を用いて ρ : H≤M → Cb (X Y) と定義すると,補題 4 により,ρ は連続 である. 次に,ψ が不変カーネル1 であることから,E −1 は translation equivariant である. また,仮定より Φ が translation equivariant である. よって,これらで構成された ρ も translation equivariant となる. 1 k(x − y) = ψ(x − y) の形を持つカーネルのこと 24/49

24.

定理 1 の証明における重要な事項 1. ψ :RKHS に関係した正定値カーネルに設定 X E に必要とする性質を持たせるために必要 X (i)ψ(x, x0 ) ≥ 0,(ii)ψ(x, x) = σ 2 > 0,(iii)kxk → ∞ のとき ψ(x, x0 ) → 0 2. φ:K 次元までの y の冪乗 (i.e. φ(y) = (y 0 , y 1 , · · · , y K )) [Zaheer et al., 2017] 0 X 集合系 (族)Zm ⊆ Zm は multiplicity K P E :カーネル ψ の RKHSH と内積 hf, giHK+1 = K+1 i=1 hfi , gi iH で構成された K+1 (K + 1) 次元ベクトルのヒルベルト空間 H = H × . . . × H に写像する: (m ) X m 0 Hm = φ(yi )ψ(·, xi ) : (xi , yi )i=1 ⊆ Zm ⊆ HK+1 i=1 3. ρ:連続かつ関数間で translation equivariant な写像が可能な関数近似器 25/49

25.

Convolutional Conditional Neural Processes ConvCNP ConvCNP は,観測データ Z と ConvDeepSetΦ があるとき, 次の条件付き分布をモデル化する: p(Y |X, Z) = N Y p (yn |Φθ (Z) (xn )) = n=1 N Y N (yn ; µn , Σn ) n=1 m X with (µn , Σn ) = Φθ (Z)(xn ) = ρ( φ(yi )ψ(· − xi ))(xn ) i=1 Φ の要素である ρ,φ,ψ の設計が重要 X ρ と ψ は,データが格子状にあるかないかで異なる 27/49

26.

φ の形式について この論文内で取り組むタスク:Z の multiplicity は 1 (i.e. K = 1) X 一つの入力位置につき,一つの出力 φ はオーダーが 1 の指数系列:φ(y) = [1 y]> " # 1 X hi ← n=1 ψ(ti − xn ) yn X 1 次元目:データが観測されていることを示す情報 PN • y = 0 となるようなデータ点 x と区別をするため • 観測点の “密度” を表現している X 2 次元目以降:周辺の観測点の値をカーネルによる加重平均 X 獲得された関数表現 h のうち,h(0) で h(1:) を割る 入力位置が多様に富んでいるときに有効 28/49

27.

off-the-grid 時の CONVCNPs Theorem 1 の証明から残りの関数 φ と ρ は決まる: ψ :定常性/非負/正定値を持つカーネル X 指数二次 (exponentiated-quadratic; EQ) カーネルの選択が自然 X φ との積で関数表現 E(Z) になる ρ:連続/関数空間同士の写像が translation equivalent を持つ X CNN により translation equivalent は保持される ρ の入力を離散化,CNN 適用,CNN の出力を連続関数に戻す 29/49

28.

off-the-grid 時の順伝搬 1 2 3 4 5 6 7 8 9 10 require: ρ = (CNN, ψρ ), ψ, density γ ∗ M require: context (xn , yn )N n=1 , target (xm )m=1 begin  ∗ M lower, upper ← range (xn )N n=1 ∪ (xm )m=1 (ti )Ti=1 ← uniform_grid(lower, upper; γ) " # PN 1 hi ← n=1 ψ(ti − xn ) yn (1) (1) (0) hi ← hi /hi (fµ (ti ), fσ (ti ))Ti=1 ← CNN((ti , hi )Ti=1 ) P µm ← Ti=1 fµ (ti )ψρ (x∗m − ti ) P σm ← Ti=1 exp(fσ (ti ))ψρ (x∗m − ti ) return (µm , σm )M m=1 end 30/49

29.

off-the-grid 時の順伝搬のイメージ 1. 観測点が与えられたときに,観測点の密度と値を使って関数表現を獲得 2. 格子状のデータ点を用意し,各点での平均と分散を畳み込んで計算 3. 格子点間の点における平均と分散をカーネルで戻して出力させる 31/49

30.
[beta]
on-the-grid 時の ConvCNPs
主に画像を入力にするときの場合を考える:ベンチマークでは画像補完タスク

off-the-grid の時に比べて実装は簡単 ピクセルの位置を利用
画像 I ∈ RH×W ×C に対し,context マスク Mc を設定する
X ピクセル位置 (i, j) が context に含まれている場合は 1,含まれなければ 0

φ の実装:Zc := Mc

I,φ = [Mc , Zc ]>

あとは何回か CNN を通し,出力を 2C で出力する:平均と標準偏差
E(context set)

(µ, log(σ)) = Mt

z
}|
CNN([ conv(Mc ) ; conv(Mc
| {z }

{
I)/conv(Mc )] )
>

density channel

32/49

31.

on-the-grid 時の順伝搬 1 2 3 4 5 6 require: ρ = CNN, E = CONVθ require: image I, context Mc , target mask Mt begin // We discretize at the pixel locations. Zc ← Mc I // Extract Context set. h ← CONVθ ([Mc , Zc ]> ) h(1:C) ← h(1:C) /h(0) ft ← Mt CNN(h) (1:C) 7 µ ← ft 8 σ ← pos(ft return (µ, σ) 9 10 (C+1:2C) ) end 33/49

32.

ConvCNPs の学習 データセット D = {Zn }N n=1 ⊆ Z とパラメータ θ が与えられたとき, Zn を context set(Zn,c ) と target set(Zn,t ) に分割し,尤度最大化を行う: ∗ θ = arg max θ∈Θ N X X log p (y|Φθ (Zn,c )(x)) n=1 (x,y)∈Zn,t 学習アルゴリズムとして確率的勾配降下法を適用 34/49

33.

実験 on-the-grid 時と off-the-grid 時の両方で ConvCNPs の性能を評価 1. Translation equivariance は,性能改善に役立っているのか? 2. Translation equivariance は,ConvCNPs を訓練時と異なるデータに対して汎化 するのか? 複数の off-the-grid のデータセットでの実験: 不規則にサンプリングされた時系列 (X = R) データを利用 ガウス過程 [Williams and Rasmussen, 2006] と AttnCNP[Kim et al., 2019](潜在 パス抜き) と比較 複数の on-the-grid のデータセットでの実験: 画像データセット (X = R2 ) 36/49

34.

2 種類の CNN アーキテクチャ 1D 回帰実験で使うモデル: 入力カーネル ψ と出力層 φp X 学習可能な length scale パラメータありの EQ カーネル ネットワークの大きさで 2 種類提案 X ConvCNP:4 層の畳み込み,カーネルサイズ 5, [16, 32, 16, 2] チャンネル • パラメータ数 5506 だと思うんだけど,論文では 6537 X ConvCNPXL:UNet の構造から発想 • 12 層+skip coneection (最初の 6 層でチャンネル倍,終わり 6 層でチャンネル半分) 37/49

35.

Synthetic 1D データセット 4 種類のカーネルを使ったガウス過程からサンプリングされたデータセットで回帰 EQ カーネル Matern- 52 カーネル weakly-periodic カーネル Params EQ Weak Periodic Matern Sawtooth CNP AttnCNP ConvCNP ConvCNPXL 66818 149250 6537 50617 0.88 ± 3e-3 2.58 ± 4e-3 2.06 ± 5e-3 2.93 ± 4e-3 -1.10 ± 2e-3 -1.10 ± 2e-3 -1.14 ± 2e-3 -0.41 ± 2e-3 -0.78 ± 1e-3 -0.42 ± 2e-3 0.37 ± 4e-3 0.50 ± 4e-3 -0.16 ± 1e-5 0.33 ± 2e-3 2.21 ± 4e-3 2.66 ± 1e-3 ConvCNP AttnCNP sawtooth 過程 Model 38/49

36.

PLAsTiCC データセット 大型シノプティック・サーベイ望遠鏡によって,現実的な観測条件下で観測された過 渡現象のシミュレーションデータ (Kaggle ページ) 6 種類の天文フィルタによる光子束を計測した 3,500,734 個の “光の曲線” データ 6 次元の時系列データ 比較対象: 優勝モデル:光の曲線をモデリングした GP multi-input-multi-output の CONVCNP Model Log-likelihood MSE Kaggle GP [Boone, 2019] ConvCP (ours) -0.335 ± 0.09 1.31 ± 0.30 0.037 ± 4e-3 0.040 ± 5e-3 39/49

37.

Predator-Prey モデル:SIM2REAL シミュレーションデータで学習して,実データでテスト 捕食–被食関係による個体数の変動を表現したロトカ・ヴォルテラの方程式を 利用して,シミュレーション X ロトカ・ヴォルテラ過程 [Papamakarios and Murray, 2016] のパラメータ推定に利用 Hudson’s Bay lynx-hare データセット (実データ) を条件づけて一部を補完 AttnNP ではできなかった シミュレーションデータが可変長で translation equivariance が必要だから? 40/49

38.

2D 画像補完 ピクセル座標 x∗i の強度 yi∗ (RGB:∈ R3 ,グレースケール:∈ R) を予測 4 種類のよくあるベンチマークデータセットで実験 X MNIST,SVHN,32 × 32,64 × 64 の CelebA いずれも一つの物体が中央に位置 1 しているため,translation equivariance が 性能悪化させているかもしれない 複数の物体が非中央に位置している画像でもテスト X zero-shot MNIST(ZSMM) X 訓練時は 1 枚辺り一個の数字,テスト時は 1 枚あたり 2 つの数字 Model AttnCNP ConvCNP ConvCNPXL Params MNIST SVHN CelebA32 CelebA64 ZSMM 410k 181k 408k 1.08 ±0.04 1.19 ±0.01 1.26 ±0.01 3.94 ±0.02 3.89 ±0.01 3.97 ±0.03 3.18 ±0.02 3.19 ±0.02 3.35 ±0.02 3.64 ±0.01 3.70 ±0.01 -0.83 ±0.08 1.21 ±0.00 0.30 ±0.75 41/49

39.

2D 画像補完の結果 ZSMM の補完における対数尤度ヒストグラムと異なる percentiles における補完結果 ConvCNP は,out-of-distribution であっても,うまく出来ている X AttnCNP:訓練データに偏り,中央に “平均” 的な数字を予測 42/49

40.

その他の画像補完結果 CelebA や MNIST で学習させた ConvCNP を転移させる Figure 3: 95%欠損したオスカー写真 43/49

41.

まとめ Neural process Family と ConvCNP について発表 Translation equivalence という帰納的バイアスを追加 Convolutional Deep Sets に関する定理を示す X 畳み込みをうまくモデルに組み込む 様々な回帰タスクの実験で既存の AttentionCNP を上回る X 1D 回帰及び 2D 回帰 (画像補完タスク) 感想 カーネルをうまく使ってあげることで,DNN だけでは難しいところをカバーし ているのはうまい きちんと証明しているのは強い (8p に及んでる)(つらい) 44/49

42.

References i [Boone, 2019] Boone, K. (2019). Avocado: Photometric classification of astronomical transients with gaussian process augmentation. arXiv preprint arXiv:1907.04690. [Cohen and Welling, 2016] Cohen, T. and Welling, M. (2016). Group equivariant convolutional networks. In Balcan, M. F. and Weinberger, K. Q., editors, Proceedings of The 33rd International Conference on Machine Learning, volume 48 of Proceedings of Machine Learning Research, pages 2990–2999, New York, New York, USA. PMLR. 45/49

43.

References ii [Galashov et al., 2019] Galashov, A., Schwarz, J., Kim, H., Garnelo, M., Saxton, D., Kohli, P., Eslami, S., and Teh, Y. W. (2019). Meta-learning surrogate models for sequential decision making. arXiv preprint arXiv:1903.11907. [Garnelo et al., 2018a] Garnelo, M., Rosenbaum, D., Maddison, C., Ramalho, T., Saxton, D., Shanahan, M., Teh, Y. W., Rezende, D., and Eslami, S. M. A. (2018a). Conditional neural processes. In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 1704–1713, Stockholmsmässan, Stockholm Sweden. PMLR. 46/49

44.

References iii [Garnelo et al., 2018b] Garnelo, M., Schwarz, J., Rosenbaum, D., Viola, F., Rezende, D. J., Eslami, S., and Teh, Y. W. (2018b). Neural processes. arXiv preprint arXiv:1807.01622. [Kim et al., 2019] Kim, H., Mnih, A., Schwarz, J., Garnelo, M., Eslami, A., Rosenbaum, D., Vinyals, O., and Teh, Y. W. (2019). Attentive neural processes. In International Conference on Learning Representations. 47/49

45.

References iv [Kondor and Trivedi, 2018] Kondor, R. and Trivedi, S. (2018). On the generalization of equivariance and convolution in neural networks to the action of compact groups. In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 2747–2755, Stockholmsmässan, Stockholm Sweden. PMLR. [Louizos et al., 2019] Louizos, C., Shi, X., Schutte, K., and Welling, M. (2019). The functional neural process. arXiv preprint arXiv:1906.08324. [Papamakarios and Murray, 2016] Papamakarios, G. and Murray, I. (2016). Fast -free inference of simulation models with bayesian conditional density estimation. In Lee, D. D., Sugiyama, M., Luxburg, U. V., Guyon, I., and Garnett, R., editors, Advances in Neural Information Processing Systems 29, pages 1028–1036. 48/49

46.

References v [Williams and Rasmussen, 2006] Williams, C. K. and Rasmussen, C. E. (2006). Gaussian processes for machine learning, volume 2. MIT press Cambridge, MA. [Zaheer et al., 2017] Zaheer, M., Kottur, S., Ravanbakhsh, S., Poczos, B., Salakhutdinov, R. R., and Smola, A. J. (2017). Deep sets. In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R., editors, Advances in Neural Information Processing Systems 30, pages 3391–3401. 49/49