不変性に基づく転移学習:理論と方法

不変性に基づく転移学習：理論と方法松井孝太名古屋大学大学院医学系研究科生物統計学分野第 105 回データサイエンスセミナー @ 滋賀大学データサイエンス学部 / データサイエンス研究科 2021 年 12 月 3 日

Table of contents i 1. はじめに 2. 転移学習の定式化 3. 教師なしドメイン適応の期待リスク上界の解析 4. 教師なしドメイン適応の不可能性定理 5. 転移学習のためのドメイン不変な表現学習 6. 非もつれ表現と転移学習への応用 7. まとめ松井 (名古屋大) 転移学習 1 / 78

3.

はじめに

output.html#?

4.

転移学習？ Inductive Transfer : 10 Years Later (NIPS’05 Workshop) における定義帰納的転移または転移学習とは, 新しいタスクに対する有効な仮説を効率的に見つけ出すために, 一つ以上の別のタスクで学習された知識を保持 · 適用する問題を指す. → 定義がふんわりしていて結局何をするのか分からない松井 (名古屋大) 転移学習はじめに 2 / 78

output.html#?

5.

本発表の目的 • 転移学習を期待リスク最小化を通して体系的に整理する • 問題設定と定式化, それに基づく分類 • 従来の機械学習との関係 • 転移学習の統計的学習理論を説明する • 教師なし転移学習問題における期待リスクの上界評価 • 転移学習の具体的な方法の例を紹介する注意本発表では主に「ドメイン適応」を想定した解説をしており, 以下のトピックは扱っていません • メタ学習 • 継続学習松井 (名古屋大) 転移学習はじめに 3 / 78

output.html#?

6.

転移学習の定式化

output.html#p

7.

統計的機械学習 (教師あり学習) の問題設定 • 教師データ Dn = {(xi , yi )}ni=1 ⊂ X × Y • (xi , yi ) ∼i.i.d PX ×Y • データはある確率分布から独立にサンプリングされていると仮定 • 仮説 h : X → Y 入力から出力を予測する関数 • 損失関数 ℓ : Y × Y → R≥0 予測の間違いに対する罰則 Definition 1 (期待リスク) データ分布 PX ×Y の下での仮説 h の期待リスク R(h) := E(X,Y )∼PX ×Y [ℓ(h(X), Y )] 期待リスクが小さい → h の PX ×Y から生成されるデータに対する予測性能は高い期待リスクの小さい仮説を仮説集合 H から見つければ良い松井 (名古屋大) 転移学習転移学習の定式化 4 / 78

output.html#?

8.

期待リスク最小な仮説の学習一般に PX ×Y は未知なため, 期待リスクの代わりに経験リスク n 1X R̂(h) := ℓ(h(xi ), yi ) n i=1 を最小化して仮説 h を学習する: ĥ = arg min R̂(h) h∈H 経験リスク最小化の正当化 (大数の弱法則) (Xi , Yi ) ∼i.i.d PX ×Y のとき, ∀ε > 0 に対して lim PrDn |R̂(h) − R(h)| > ε = 0 n→∞ • データが独立同一に分布 PX ×Y から得られるとき, データ数を十分大きく取れば経験リスクと期待リスクの差は確率的に 0 に収束する松井 (名古屋大) 転移学習転移学習の定式化 5 / 78

output.html#?

9.

転移学習の問題設定目標ドメインで期待リスク最小の仮説を学習することが目的⽬標ドメインが⼩さいまたはが観測されないなどの理由で⽬標ドメインのみでは学習が困難⽬標ドメインの期待リスク最⼩の仮説元ドメインモデルを学習したいドメインと類似した別のドメイン（元ドメイン）を持ってくるは⼗分⼤きいことを想定やなどを利⽤することで少ないデータから効率的に仮説を学習松井 (名古屋大) 転移学習転移学習の定式化 6 / 78

output.html#?

10.

従来の機械学習の転移学習的解釈伝統的な機械学習は元ドメイン = 目標ドメインを仮定: XS × YS = XT × YT and PXS ×YS = PXT ×YT この仮定の下では元ドメイン (学習データ) での学習が直接目標ドメイン (テストデータ) でのリスク最小化になる松井 (名古屋大) 転移学習転移学習の定式化 7 / 78

output.html#0

11.

転移学習の基本的な問題 1. When to transfer (いつ転移するか) • 一般に元ドメインと目標ドメインは異なる • 直観的には 2 つのドメインが似ていると転移が上手くいく可能性が高い • 不一致度などによってドメイン間の非類似度を定量化 • 転移仮定 (知識転移を成功させるために仮定をおく) • ドメインの非類似性に起因する負転移を回避したい • 転移によって目標ドメインの性能がむしろ悪化する現象 2. What to transfer (何を転移するか) • • • • 事例転移 (データそのものを転移) 特徴転移 (共通の特徴を抽出) パラメータ転移 (学習したモデルや特徴抽出器を転移) 因果メカニズム転移 3. How to transfer (どう転移するか, 具体的なアルゴリズム) 松井 (名古屋大) 転移学習転移学習の定式化 8 / 78

output.html#?

12.

転移学習の基本問題: いつ転移するか？負転移 (negative transfer) 1. 一方のドメインのみで学習したモデルを用いる 2. 転移学習によって学習したモデルを用いるで (2 の目標タスク性能) ≤ (1 の目標タスク性能) のとなる現象 1.0 1.0 0.8 0.8 0.6 0.6 AUC AUC 直観的にはドメインが乖離しているほど負転移が発生しやすい 0.4 source only target only transfer 0.2 0.0 The number of target training cases (a) 松井 (名古屋大) 転移学習 0.4 source only target only transfer 0.2 0.0 The number of target training cases (b) 転移学習の定式化 9 / 78

output.html#?

13.

転移学習の基本問題: いつ転移するか？一般に, 元ドメインと目標ドメインは異なる (ドメインシフト) → ドメインの非類似性に対して様々な仮定をおく (転移仮定) 同質的ドメインシフト分布シフト distribution shift 異質的ドメインシフトドメイン汎化 domain generalization 異質的転移 heterogeneous transfer ⽬標ドメインは未知（学習時ににアクセスできない）同質的なケース (ラベル空間が共通) [Zhou+ ‘21] 元ドメイン⻩⾊く細⻑い果物で、⽪を剥いて⾷べる… 元ドメイン⽬標ドメイン⽬標ドメインは既知（学習時に⽬標ドメインは既知にアクセスできる）（学習時に転移仮定 [Quionero-Candela+ ‘09] Style Transfer 共変量シフト (covariate shift) ラベル事前確率シフト (label prior shift) サンプル選択バイアス (sample selection bias) クラスバランスシフト (class balance shift) 異質的なケース (ラベル空間が異なる) • • • • 転移学習にアクセスできる）転移仮定 [Duan+ ’12, Ganin+ ‘15] [Rebuffi+ ‘17] • 共通の特徴（潜在）空間⽬標ドメイン元ドメイン特徴抽出 Visual Decathlon 松井 (名古屋大) ⽬標ドメイン特徴空間転移学習の定式化 10 / 78

output.html#?

14.

転移学習の基本問題: いつ転移するか？分布シフトに対する転移仮定 [Quionero-Candela+ ’09] • データセットシフト : PS (X, Y ) ̸= PT (X, Y ) 目標ドメインのラベルありデータが使えることが前提 • 共変量シフト : PS (Y | X) = PT (Y | X), PS (X) ̸= PT (X) • クラス事前確率シフト (ターゲットシフト) : PS (X | Y ) = PT (X | Y ), PS (Y ) ̸= PT (Y ) • サンプル選択バイアス : PS (X, Y ) = P (X, Y | v = 1), PT (X, Y ) = P (X, Y ) v は (X, Y ) が学習データに含まれる (v = 1) か否 (v = 0) か • クラスバランスシフト [Redko+ ’19] : PS = (1 − πS )P0 + πS P1 , PT = (1 − πT )P0 + πT P1 (πS ̸= πT ) P0 , P1 はクラス 0, 1 に対応する共変量分布松井 (名古屋大) 転移学習転移学習の定式化 11 / 78

output.html#

15.

[beta]

転移学習の基本問題: いつ転移するか？
異質的ドメインシフトに対する転移仮定
共通の特徴空間 [Duan+ ’12, Ganin + ’15, Iwata&Yamada ’16]
元ドメイン

⽬標ドメイン

Latent space

次元が異なる

!%
!"
#

$ &' !
(
*)
"

W1 !

共通空間

" W2
"

!%
!"
#

$ &'
(
* )

γ
!

' )*
( &
$

%#
"
!

"

Observed view 1
[Duan+ (ICML2012)]
松井 (名古屋大)

転移学習

Observed view 2

(a)
[Iwara&Yamada
(NIPS2016)]

Figure 1: (a) A multi-view anomaly ‘M’ and a single-vie
letter represents an instance, and the same letter indica
matrix for view d. (b) Graphical model representation of
転移学習の定式化
12 / 78

output.html#?

16.

転移学習の基本問題: いつ転移するか？不一致度 (discrepancy) : 両ドメインの確率分布の分布間 (疑) 距離で非類似度を測る • 不一致度が小さいとき, 目標ドメインのデータは元ドメインとよく似た生成メカニズムを持っていると考える • 様々な discrepancy が定義されている • H ダイバージェンス [Ben-David+ ’10] • Wasserstein 距離 [Courty+ ’17] • source-guided discrepancy [Kuroki+ ’19] 松井 (名古屋大) 転移学習転移学習の定式化 13 / 78

output.html#?

17.

転移学習の基本問題: 何を転移するか？元ドメインから目標ドメインへ転移する「知識」によって定式化や方法が変わる⽬標ドメイン元ドメインデータ集合事例転移特徴量例：重要度重み付き学習学習済の仮説特徴転移例：ドメイン敵対的学習転移学習の⽬的パラメータ転移⽬標ドメインの期待リスク最⼩の仮説例：事前学習とファインチューン松井 (名古屋大) 転移学習転移学習の定式化 14 / 78

output.html#?

18.

転移学習の基本問題: どう転移するか？例 I 転移学習のシナリオ: 同質的なドメインシフト転移仮定 (when) : 共変量シフト PT (Y | X) = PS (Y | X) S 転移の対象 (what) : 元ドメインのデータ DS = {(xSi , yiS )}ni=1 重要度重み付き経験リスク最小化 [Sugiyama+ ’12] nS 1 X r̂(xi )ℓ(h(xi ), yi ) ĥT = arg min nS h∈H i=1 ここで, r̂(x) は確率密度比 r(x) = pT (x)/pS (x) の推定量 • まず r̂(·) を推定し, その後重み付き ERM する 2 段階の方法 • 目標ドメインのラベルデータがなくても使える (教師なし転移) 松井 (名古屋大) 転移学習転移学習の定式化 15 / 78

output.html#`

19.

転移学習の基本問題: どう転移するか？例 I 重要度重み付き学習の正当化共変量シフトの仮定の下では目標ドメインの期待リスク RT (x) は元ドメインの重み付き期待リスクとして書ける: RT (h) = E(X,Y )∼PT (X,Y ) [ℓ(h(X), Y )] Z Z = ℓ(h(x), y)pT (x, y)d(x, y) Z Z (x,y) = (x,y) Z Z = pS (x) ℓ(h(x), y) pT (y | x) pT (x) d(x, y) pS (x) | {z } =pS (y|x) pT (x) d(x, y) ℓ(h(x), y) pS (y | x)pS (x) pS (x) | {z } (x,y) =pS (x,y) Z Z pT (x) d(x, y) pS (x) pT (X) = E(X,Y )∼PS (X,Y ) ℓ(h(X), Y ) pS (X) = ℓ(h(x), y)pS (x, y) (x,y) 松井 (名古屋大) 転移学習転移学習の定式化 16 / 78

output.html#`

20.

転移学習の基本問題: どう転移するか？例 I 密度比 r(x) = PT (x)/PS (x) を推定する方法 • 制約なし最小二乗重要度フィッティング (uLSIF) [Kanamori+ ’09] Z 1 min (r(x; θ) − r(x))2 pS (x)dx θ 2 Z Z 1 2 = min r(x; θ) pS (x)dx − r(x; θ)pT (x)dx θ 2 nS nT 1 X 1 X ≈ min (r(xSi ; θ))2 − r(xTj ; θ) + λReg(θ) θ 2nS n T i=1 j=1 ここで, r(x; θ) は r(x) のモデル • r(x; θ) にカーネルモデルを使う (KuLSIF) [Kanamori+ ’12] • KuLSIF モデルの下で共変量の変数選択をする [Matsui+ ’19] • 相対密度比 rα (x) = pT (x) (1−α)pT (x)+αpS (x) の推定 [Yamada+ ’13] • 密度比に変更を加えて推定値が発散するのを防ぐ • 推定方法は KuLSIF と同様松井 (名古屋大) 転移学習転移学習の定式化 17 / 78

output.html#

21.

[beta]

転移学習の基本問題: どう転移するか？例 II
記号の準備
• p 次 Wasserstein 距離

Wp (P, Q) =
inf

Z

′ p

′

c(x, x ) dµ(x, x )

µ∈Γ(P,Q) X ×X

1/p
, P, Q ∈ Pp (X )

• (X , c) : 距離空間
• P(X ) : X 上の確率分布の集合
R
• Pp (X ) = {P ∈ P(X ) | X c(x, x′ )p dP (x) < ∞, ∀x′ ∈ X }
: p 乗可積分な分布の集合
• Γ(P, Q) = {µ : X × X 上の分布 | µ(·, X ) = P (·), µ(X , ·) = Q(·)}
: P と Q のカップリング

• Kantrovich-Rubinstein 双対性
W1 (P, Q) = sup Ex∼P [f (x)] − Ex∼Q [f (x)], P, Q ∈ P1 (X )
f :1-Lip

• 1-Lip : 1-リプシッツ連続な関数 i.e. |f (x) − f (x′ )|/c(x, x′ ) ≤ 1
松井 (名古屋大)

転移学習

転移学習の定式化

18 / 78

output.html#p

22.

転移学習の基本問題: どう転移するか？例 II 転移学習のシナリオ: 同質的なドメインシフト転移仮定 (when) : 共変量シフト PT (Y | X) = PS (Y | X) 転移の対象 (what) : 元ドメインの特徴量 F S Wasserstein 距離による不変表現学習 [Shen+ ’18] min max LWD (xS , xT ) − γLgrad (F̂ ) θg θw • LWD (xS , xT ) = 1 X 1 X hθw (fθg (xS )) − hθ (fθ (xT )) nS S nT T w g x x → PS と PT の間の経験 Wasserstein 距離の KR 双対表現 • Lgrad (F̂ ) = (∥∇F̂ hθw (F̂ )∥ − 1)2 , F̂ ∈ 線分 fθg (xS )-fθg (xT ) fθg で抽出した特徴量がどちらのドメイン由来かを hθw で識別 Lgrad は hθw のリプシッツ性を保証するための罰則項松井 (名古屋大) 転移学習転移学習の定式化 19 / 78

output.html#p

23.

転移学習の基本問題: どう転移するか？例 II 特徴抽出器ラベル識別器元ドメインデータ … 元ドメイン特徴量⽬標ドメインデータ … ⽬標ドメイン特徴量識別誤差 … … … Wasserstein距離 … ドメインクリティック実際にはラベル識別器 hθc も同時学習: n o min Lc (xS , y S ) + λ max LWD (xS , xT ) − γLgrad (F̂ ) θg ,θc θw • Lc (xS , y S ) = − n1S 松井 (名古屋大) 転移学習 P nS P ℓ i=1 k=1 1{yiS =k} log hθc (fθg (xSi ))k 転移学習の定式化 20 / 78

output.html#

24.

転移学習の基本問題: どう転移するか？例 III 転移学習のシナリオ: 同質的/異質的なドメインシフト転移仮定 (when) : 同一構造の NN で処理することの妥当性転移の対象 (what) : 学習済み NN モデルのパラメータ NN モデルの事前学習とファインチューン ··· ··· 松井 (名古屋大) 転移学習転移学習の定式化 21 / 78

output.html#

25.

When/What/How の新しい方向性: 因果構造に基づく転移学習データ分布の背後にある因果モデルに対して転移仮定をおく [Teshima+ ’20] 松井 (名古屋大) 転移学習転移学習の定式化 22 / 78

output.html#0

26.

教師なしドメイン適応の期待リスク上界の解析

output.html#

27.

教師なしドメイン適応における典型的なリスク上界教師なしドメイン適応 S • 元ドメインのラベルありデータ DS = {(xSi , yiS )}ni=1 T • 目標ドメインのラベルなしデータ DT = {xTj }nj=1 • 同質的なドメインシフト: XS = XT , PXS ̸= PXT の下で, 目標ドメインの期待リスクを最小にする仮説を学習: h∗T = arg min RT (h) = E(x,y)∼PX h∈H T ×YT [ℓ(y, h(x))] 典型的な RT (h) の上界の形 RT (h) ≤ RS (h) + Disc(PXT , PXS ) + Diﬀ(fT , fS ) • fT , fS : 目標ドメイン, 元ドメインの真の出力関数 • Disc : 元ドメインと目標ドメインの周辺分布の不一致度 • Diﬀ : 元ドメインと目標ドメインのラベル関数の違い松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 23 / 78

28.

例 I 全変動距離に基づく RT (h) の上界全変動 (total variation) 距離 dT V (P, Q) := 2 sup |P (A) − Q(A)|, A : 可測集合 A 仮定 • YS = YT = {0, 1} (2 値判別) • ℓ(y, ŷ) = 1y̸=ŷ (0-1 損失) 定理 [Ben-David+ ’06] 任意の h ∈ H に対して, 以下が成立 RT (h) ≤ RS (h) + dT V (PXT , PXS ) n o + min EPXS [|fS (X) − fT (X)|] , EPXT [|fS (X) − fT (X)|] • dT V が仮説集合によらないので上界が緩い • dT V が全ての可測集合を考慮するので有限サンプル近似が困難松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 24 / 78

29.

30.

例 II H-ダイバージェンスに基づく RT (h) の上界引き続き 2 値判別を考える H-ダイバージェンス dH∆H (P, Q) := 2 sup |P (Ih ) − Q(Ih )| h∈H∆H • H∆H = {h ⊕ h′ | h, h′ ∈ H} (⊕ は排他的論理和) • x ∈ Ih ⇔ h(x) = 1 p • H の VC 次元が d のとき, dH∆H ≤ dˆH∆H + O( d/n) 定理 [Ben-David+ ’10] 任意の h ∈ H に対して, 以下が成立 1 RT (h) ≤ RS (h) + dH∆H (PXT , PXS ) + min(RS (h) + RT (h)) h∈H 2 • dH∆H は仮説集合を考慮して定まり, dT V より大きくならない (dT V の困難の緩和) 松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 26 / 78

31.

例 II H-ダイバージェンスに基づく RT (h) の上界 (証明) 損失関数の三角不等式から RT (h) = RT (h, fT ) ≤ RT (h∗ , fT ) + RT (h, h∗ ) ≤ RT (h∗ ) + RS (h, h∗ ) + |RT (h, h∗ ) − RS (h, h∗ )| 1 ≤ RT (h∗ ) + RS (h) + RS (h∗ ) + dH∆H (PXT , XS ) 2 1 = RS (h) + dH∆H (PXT , PXS ) + min(RS (h) + RT (h)) 2 h∈H 2 • 第 3 項は同時誤差などと呼ばれ, これを達成する仮説 h∗ は理想的な同時仮説と呼ばれる • 一般に同時誤差は小さいとは限らず, また目標ドメインのラベル情報がないと推定できない (上界が緩い可能性) • H ダイバージェンスが 0-1 損失に依存している (限定的) 松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 27 / 78

32.

例 III 不一致距離に基づく RT (h) の上界 0 − 1 損失以外の損失関数にリスク上界評価を拡張する不一致距離 ddisc (P, Q; ℓ) := sup h,h′ ∈H×H |EP [ℓ(h(x), h′ (x))] − EQ [ℓ(h(x), h′ (x))]| • ℓ : Y × Y → R+ は任意の損失関数 • 0-1 損失 ℓ(y, y ′ ) = 1{y̸=y′ } に対して以下が成立 1 ddisc (P, Q; 1{y̸=y′ } ) = dH∆H (P, Q) 2 ′ ′ • ℓ(y, y ) ≤ M , y, y ∈ Y を満たす損失に対して以下が成立 ddisc (P, Q; ℓ) ≤ M dT V (P, Q) 松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 28 / 78

33.

例 III 不一致距離に基づく RT (h) の上界定理 [Mansour+ ’09] • h∗S = arg min RS (h) : 元ドメインの最適な仮説 h∈H • h∗T = arg min RT (h) : 目標ドメインの最適な仮説 h∈H • ℓ : 対称で三角不等式を満たす有界損失関数任意の h ∈ H に対して, 以下が成立 RT (h) ≤ RS (h, h∗S ) + ddisc (PXT , PXS ; ℓ) + RT (h∗T ) + RT (h∗T , h∗S ) (証明) 損失の三角不等式を 2 回使う RT (h) = RT (h, fT ) ≤ RT (h, h∗S ) + RT (h∗S , h∗T ) + RT (h∗T , fT ) {z } | =RT (h∗ T) ≤ |RT (h, h∗S ) − RS (h, h∗S )| +RS (h, h∗S ) + RT (h∗S , h∗T ) + RT (h∗T ) 2 | {z } ≤ddisc (PXT ,PXS ;ℓ) 松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 29 / 78

34.

例 III 不一致距離に基づく RT (h) の上界不一致距離の有限サンプル近似上界仮定 • ℓq (y, , y ′ ) = |y − y ′ |q , ℓq (y, , y ′ ) ≤ M (∀y, y ′ ∈ Y) 命題 [Mansour+ ’09] 任意の δ > 0 に対して 1 − δ の確率で以下が成立 ddisc (PXT , PXS ; ℓq ) ≤ ddisc (P̂XT , P̂XS ; ℓq ) + 4q ℜ̂T,nT (H) + ℜ̂S,nS (H) s  s log(4/δ) log(4/δ)  + 3M  + 2nT 2nS • P̂XT , P̂XS : サイズ nT , nS の経験分布 • ℜ̂T,nT (H), ℜ̂S,nS (H) : H の経験ラデマッハ複雑度松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 30 / 78

35.

例 IV Wasserstein 距離に基づく RT (h) の上界 1 次 Wasserstein 距離 (再掲) Z c(x, x′ )dµ(x, x′ ) W1 (PXT , PXS ) = inf µ∈Γ(PXT ,PXS ) X ×X 仮定 • ℓ(y, y ′ ) = |y − y ′ | • 仮説 h ∈ H は K-リプシッツ連続定理 [Shen+ ’18] RT (h) ≤ RS (h) + 2KW1 (PXT , PXS ) + min(RS (h) + RT (h)) h∈H 松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 31 / 78

36.

例 IV Wasserstein 距離に基づく RT (h) の上界 (証明) h∗ = arg min(RS (h) + RT (h)) とする h∈H ∗ RT (h) ≤ RT (h ) + RT (h∗ , h) ≤ RT (h∗ ) + RS (h, h∗ ) + RT (h, h∗ ) − RS (h, h∗ ) ≤ RT (h∗ ) + RS (h, h∗ ) + 2KW1 (PXT , PXS ) ≤ RT (h∗ ) + RS (h) + RS (h∗ ) + 2KW1 (PXT , PXS ) = RS (h) + 2KW1 (PXT , PXS ) + min(RS (h) + RT (h)) 2 h∈H • 2 行目 ∼3 行目: h, h′ が K-Lip のとき |h − h′ | は 2K-Lip であることと K-R 双対性を使う RT (h, h′ ) − RS (h, h′ ) = EPXT [h(x) − h′ (x)] − EPXS [h(x) − h′ (x)] ≤ sup f :2K-Lip EPXT [f (x)] − EPXS [f (x)] = 2KW1 (PXT , PXS ) 松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 32 / 78

37.

例 IV Wasserstein 距離に基づく RT (h) の上界 Integral Probability Metrics (IPM) [Sriperumbudur+ ’09] γG (P, Q) := sup |EP [g] − EQ [g]| g∈G • 関数空間 G のとり方で様々な不一致度を表現できる • Wasserstein 距離, 全変動距離, カーネル MMD などを含む • e.g. G : 1-Lip 関数全体のとき, γG (P, Q) = W1 (P, Q) 定理 [Sriperumbudur+ ’09] 確率 1 − δ 以上で以下のサンプル近似上界が成立 |γG (PT , PS ) − γG (P̂T , P̂S )| r 4 1 1 ≤ 2ℜT,nT (G) + 2ℜS,nS (G) + M 18 log +√ √ δ nT nS • ℜT,nT (G), ℜS,nS (G) : G のラデマッハ複雑度 • nT , nS : 各ドメインのサンプルサイズ • M = supx∈X ,g∈G g(x) 松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 33 / 78

38.

例 IV Wasserstein 距離に基づく RT (h) の上界一般の IPM のサンプル近似上界の系として以下が成り立つ定理 [Sriperumbudur+ ’09] X が Rd (d > 2) の有界部分集合のとき, |W1 (PXT , PXS ) − W1 (P̂XT , P̂XS )| = Op 1 1/d+1 nT + 1 ! 1/d+1 nS [Shen+ ’18] の結果と合わせると, 以下の W1 に基づく RT (h) の上界の有限サンプル近似を得る ! 1 1 RT (h) ≤ R̂S (h) + W1 (P̂XT , P̂XS ) + Op + 1/d+1 1/d+1 nT nS + min(RS (h) + RT (h)) h∈H 松井 (名古屋大) 転移学習教師なしドメイン適応の期待リスク上界の解析 34 / 78

39.

教師なしドメイン適応の不可能性定理

output.html#PE

40.

教師なしドメイン適応の必要条件教師なしドメイン適応でおかれる理論的な仮定 • 共変量シフト PT (Y | X) = PS (Y | X) • 小さい不一致度 Disc(PXT , PXS ) : small • 小さい同時誤差 λ = Diﬀ(fT , fS ) : small 以降では特に λ = λH = minh∈H RS (h) + RT (h) を考える実はこれらの条件は教師なしドメイン適応の (理論的な) 必要条件になっている → 不可能性定理 (impossibility theorem) 松井 (名古屋大) 転移学習教師なしドメイン適応の不可能性定理 35 / 78

41.

準備 i ドメイン適応学習器 2 値判別問題を考える Definition 2 (ドメイン適応学習器) A: ∞ [ ∞ [ (X × {0, 1})m × X n → {0, 1}X m=1 n=1 元ドメインのラベル付きデータと目標ドメインのラベルなしデータから仮説を学習するアルゴリズムを写像として書いたもの松井 (名古屋大) 転移学習教師なしドメイン適応の不可能性定理 36 / 78

42.

準備 ii 学習可能性 Definition 3 (学習可能性) 目標ドメインの分布 PT が元ドメインの分布 PS と仮説集合 H によって A (ε, δ, m, n)-学習可能 :⇐⇒ Pr S∼i.i.d (PS )m n Tu ∼i.i.d (PXT ) [RT (A (S, Tu )) ≤ RT (H) + ε] ≥ 1 − δ • RT (H) = inf h∈H RT (h) • S : 元ドメインのサイズ m のラベルありデータ • Tu : 目標ドメインのサイズ n のラベルなしデータデータの出方の確率分布に対して, A が学習した仮説の期待リスク ≤ H で達成可能な最小の期待リスク + ε が 1 − δ 以上の確率で成り立つこと松井 (名古屋大) 転移学習教師なしドメイン適応の不可能性定理 37 / 78

output.html#?

43.

[beta]

転移仮定の必要性定理: 小さい不一致度の必要性
Theorem 1 (H∆H が小さいことの必要性 (Ben-David+ 2010))
ある B ⊂ A に対して, 集合 {h−1 (1) ∩ B | h ∈ H} は 2 つ以上の部分
集合を持ち, かつそれらは集合の包含関係で全順序付けられている
とする.
このとき, 任意の ε > 0 に対して, ある元ドメイン上の同時分布 PS0
と目標ドメイン上の同時分布 PT0 が存在して, 以下を満たす:
任意のドメイン適応学習器 A と任意の整数 m, n > 0 に対して, ある
ラベル関数 f : X → {0, 1} が存在して
1. λH < ε
2. PS0 と PT0 は共変量シフト条件を満たす
3. 期待リスクが確率

以上で大きい:


1
1
≥
Pr 0 m RTf (A(S, Tu )) ≥
2
2
S∼i.i.d (PS )
n
0
Tu ∼i.i.d (PX
)
T

松井 (名古屋大)

転移学習

1
2

教師なしドメイン適応の不可能性定理

38 / 78

44.

[beta]

転移仮定の必要性定理: 小さい同時誤差の必要性
Theorem 2 (λH が小さいことの必要性 (Ben-David+ 2010))
H を X 上の仮説集合で, VCdim (H) < |X | とする.
このとき, 任意の ε > 0 に対して, ある元ドメイン上の同時分布 PS0
と目標ドメイン上の同時分布 PT0 が存在して, 以下を満たす:
任意のドメイン適応学習器 A と任意の整数 m, n > 0 に対して, ある
ラベル関数 f : X → {0, 1} が存在して
1. dH∆H (PX0 T , PX0 S ) < ε
2. PS0 と PT0 は共変量シフト条件を満たす
3. 期待リスクが確率

1
2

以上で大きい:


Pr

S∼i.i.d (PS0 )m
n
0
Tu ∼i.i.d (PX
)

RTf (A(S, Tu )) ≥


1
1
≥
2
2

T

松井 (名古屋大)

転移学習

教師なしドメイン適応の不可能性定理

39 / 78

45.

転移仮定の必要性定理定理の解釈共変量シフトの仮定があっても, • 周辺分布の間の不一致度が小さいこと • 同時誤差が小さいことのいずれかが欠ければ, 高い確率で期待リスクが大きくなってしまう松井 (名古屋大) 転移学習教師なしドメイン適応の不可能性定理 40 / 78

46.

[beta]

例 [Ben-Davis+ 2010]
PS

2ξ

0

PT

6ξ 8ξ 10ξ

4ξ

y=1
y=0

ξ

3ξ

5ξ

7ξ 9ξ 11ξ

• PS : {(2kξ, 1) | k ∈ N} 上の一様分布 (元ドメイン)
• PT : {((2k + 1)ξ, 0) | k ∈ N} 上の一様分布 (目標ドメイン)
• ξ ∈ (0, 1) は 2kξ, 2(k + 1)ξ ≤ 1 なる小さい数 (Fig : ξ =
(
(
)
1 x<t
• H = ht (x) =
t ∈ [0, 1]
0 otherwise

2
23 )

このとき, RT (H) = RS (H) = 0 で, 以下が成立:
1. PS , PT は共変量シフトを満たす
2. dH∆H (PT , PS ) = ξ (不一致度は小さい)
3. λH = 1 − ξ よって RT (h∗S ) ≥ 1 − ξ (目標リスクは大きい)
松井 (名古屋大)

転移学習

教師なしドメイン適応の不可能性定理

41 / 78

output.html#0

47.

ドメイン適応不可能性定理 i 準備 Definition 4 (ドメイン適応の学習可能性をちょっと修正) • W = {(PXS , PXT , f )} : 教師なしドメイン適応問題の集合 • A : ドメイン適応学習器 • S = {(xsi , f (xsi ))}, xsi ∼i.i.d PXS (元ドメインデータ) • Tu = {xti }, xti ∼i.i.d PXT (目標ドメインデータ) このとき, A (ε, δ, m, n) がクラス W に対するドメイン適応問題を解決可能 :⇐⇒ Pr [RT (A (S, Tu )) ≤ ε] ≥ 1 − δ, ∀(PXS , PXT , f ) ∈ W クラス W のどんな教師なし DA の設定が来ても A は高い確率で目標リスクが小さい仮説を学習できる, という解釈松井 (名古屋大) 転移学習教師なしドメイン適応の不可能性定理 42 / 78

48.

ドメイン適応不可能性定理 ii 準備 Definition 5 (マージン γ の仮説) • X ⊂ Rd • DX : X 上の分布 • h : X → {0, 1} : 判別器 • Bγ (x) : 中心 x ∈ X , 半径 γ の球体 h が DX に関して γ-マージンの判別器 :⇐⇒ DX (Bγ (x)) > 0, h(y) = h(z), ∀x ∈ X , ∀y, z ∈ Bγ (x) 同値な言い換え (h は DX の台上でリプシッツ): 1 |h(y) − h(z)| ≤ ∥y − z∥, y, z ∈ supp(DX ) 2γ 松井 (名古屋大) 転移学習教師なしドメイン適応の不可能性定理 43 / 78

49.

ドメイン適応不可能性定理 iii Theorem 3 ((Ben-David&Urner 2012)) 任意の有限集合 X と ε + δ < 12 を満たす任意の ε, δ > 0 に対して以下を仮定: p m + n < (1 − 2(ε + δ))|X |. このとき, • dH∆H (PXT , PXS ) = 0 • min RT (h, f ) = 0 (h ≡ 1, h ≡ 0 ∈ H) h∈H • CB (PXS , PXT ) := PXS (B) 1 ≥ , B ⊂ 2X 2 B∈B,PXT (B)̸=0 PXT (B) inf であるような教師なしドメイン適応のクラス W に対して, (PS , PT , f ) ∈ W を (ε, δ, m, n)-解決するようなドメイン適応学習器 A は存在しない松井 (名古屋大) 転移学習教師なしドメイン適応の不可能性定理 44 / 78

output.html#?

50.

定理に関する Remark 仮定の解釈 (ドメイン適応をするのに有利な設定) • Theorem 3では, 目標タスクに対して “目標ドメインのラベルありデータが 1 点でもあれば誤差ゼロの仮説が学習可能” という強い仮定を置いている • また, 元ドメインと目標ドメインは不一致度及び密度比どちらで図っても “似ている” ようなクラスを想定不可能性の回避 [Ben-David&Urner (2012)] Theorem 3で • X = [0, 1]d • ラベル関数 f : λ-リプシッツ p のとき, m + n ≥ (1 − 2(ε + δ))(1 − λ)d が成り立てばクラス W を解決するような A が存在する松井 (名古屋大) 転移学習教師なしドメイン適応の不可能性定理 45 / 78

51.

Usefulness of Unlabeled Data 目標ドメインのラベルなしデータはドメイン適応においてどの程度役にたっているのか? Theorem 4 ((Ben-David&Urner (2012))) X = [0, 1]d , VCdim (H) < +∞ とし, DA のクラス W を以下で定める: W = (PS , PT , f ) RT (H) = 0, CB (PXS , PXT ) ≥ 0 . このとき, ∃c > 1, ∀ε > 0, δ > 0, (PS , PT , f ) ∈ W , 元ドメインと目標ドメインのサンプルサイズをそれぞれ VCdim (H) + log 1δ VCdim (H) m≥c log CB (PXS , PXT )(1 − ε)ε CB (PXS , PXT )(1 − ε)ε 1 2|X | log 3|X | n≥ ε δ ととると, Pr[RT (A(S, Tu )) ≤ ε] ≥ 1 − δ が成立つ A が存在する松井 (名古屋大) 転移学習教師なしドメイン適応の不可能性定理 46 / 78

52.

転移学習のためのドメイン不変な表現学習

output.html#&

53.

深層学習の発展が転移学習に与えた影響 (巨大) 事前学習モデルの利用可能性の拡大 • 事前学習済みモデルをファインチューニングして使うことで少ないコストで高い性能のモデルが利用できる • 蒸留などの NN の圧縮技術の発展で小さいモデルで高い性能のモデルが利用できる深層モデルによる表現学習の方法の発展 • ハンドメイドしていた特徴量を深層モデルが自動的に獲得 • 特にデータからドメインに関する特徴の抽出も可能に • ドメイン不変な特徴量の獲得 • 非もつれ表現 (disentangled representation) → 特徴を独立な成分に分解し, ドメイン間で共有されている成分は転移し, 異なっている成分は転移しない松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 47 / 78

54.

不変な表現学習を目指す理論的根拠目標ドメインの期待リスク RT (h) の上界 (再掲) RT (h) ≤ RS (h) + Disc(PXT , PXS ) + Diﬀ(fT , fS ) 特に Disc の最小化を目的とすることが多い • RS (h) : PXT ×YT に依らない元ドメインの期待リスク • 元ドメインの大量のデータで学習すれば小さくできる • Diﬀ(fT , fS ) : 元ドメインと目標ドメインの同時誤差 • 教師なし転移学習では定数扱い (fT が推定できないため) なぜ不変な特徴表現か？ • 一般に深層モデルで扱う問題は異質的ドメインシフトであることが多い • 不変特徴表現 ≈ 共通空間への特徴抽出 + 分布マッチング松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 48 / 78

55.

深層学習以前の特徴表現: カーネル法の場合 • 全結合型 2 層 NN として解釈可能 • 特徴抽出器 (入力層-中間層) は固定松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 49 / 78

56.

カーネル法に基づく転移学習元ドメイン⽬標ドメイン次元が異なる ``いらいらするほど簡単なDA’’ [Daume III, ACL2007] 共通空間ドメイン共通の特徴ドメイン固有の特徴 [Duan+ (ICML2012)] min max PS ,PT α 1 ⊤ 1⊤ ns +nt α − (α ◦ y) KPS ,PT (α ◦ y) 2 s.t. y ⊤ α = 0, 0ns +nt ≤ α ≤ C1ns +nt ∥PS ∥2F ≤ λp , ∥PT ∥2F ≤ λq 松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 50 / 78

57.

深層ニューラルネットによる転移学習のための表現学習 • ドメイン不変な特徴抽出器/特徴表現を学習する • オートエンコーダーや敵対的学習など様々なアプローチ松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 51 / 78

58.

深層オートエンコーダーによる表現学習に基づく転移学習 • 深層オートエンコーダーによる教師付き表現学習 [Zhuang+ (2015)] min Err(x, x̂) +α (KL(PS ||PT ) + KL(PT ||PS )) +β ℓ(yS ; θ, ξS ) +γReg | {z } | | {z } {z } reconst. error discrepancy softmax loss • 元ドメインと目標ドメインで符号化と復号化の重みを共有松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 52 / 78

59.

敵対的訓練による表現学習に基づく転移学習ドメイン敵対的訓練 (Domain Adversarial Training) [Ganin+ (2015)] • ドメイン識別器の学習は gradient に負定数をかけ逆伝播する勾配反転層を導入することで実現松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 53 / 78

60.

ドメイン敵対的訓練の学習問題アイデア: 潜在空間上での H-ダイバージェンスの最小化予測ラベル観測ラベル観測ドメインラベル元ドメインデータの特徴量予測ドメインラベル予測ドメインラベル元ドメインデータの特徴量⽬標ドメインデータの特徴量損失関数の気分経験 -ダイバージェンス : 元ドメインの特徴集合ドメイン識別器を学習して推定 : ⽬標ドメインの特徴集合松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 54 / 78

61.

不変性のみを考慮することの限界目標ドメインのリスク上界 (再掲) RT (h) ≤ RS (h) + Disc(PXT , PXS ) + Diﬀ(fT , fS ) • 不変な特徴表現の獲得 = 第 2 項の最小化 • 同時誤差 Diﬀ(fT , fS ) は無視 → 目標ドメインのラベル関数が考慮されない (上図) 松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 55 / 78

62.

不変性のみを考慮することの限界 • 実験的な同時誤差の検証 [Liu+ (2019)] • DANN のようなドメイン不変な表現学習のみを行う手法では同時誤差 RS (h) + RT (h) が大きくなるような仮説が学習されてしまう松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 56 / 78

63.

不変性と同時誤差の関係同時誤差の下界 [Zhao+ (2019)] RS (h ◦ g) + RT (h ◦ g) 1 ≥ (dJS (PYT , PYS )) − dJS (PZT , PZS )))2 2 • g : 特徴抽出器 • h : ラベル識別器 • dJS : JS ダイバージェンスの平方根 • Z : g によって抽出された特徴量の空間 • ドメイン不変な表現学習に基づく転移学習が成功するための必要条件 • 右辺第 1 項 (ラベル分布の不一致度) が大きいとき, 右辺第 2 項の最小化 (不変表現学習) は RT (h ◦ g) を悪化させる松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 57 / 78

64.

同時誤差を考慮した転移学習 Transferable Adversarial Training (TAT) [Liu+ (2019)] • 元ドメインと目標ドメインのギャップを埋めるような疑似データ (転移可能事例) を生成 • 転移可能事例を含めてラベル識別器を訓練 → ドメイン不変な表現学習を経由せずに目標ドメインで汎化するモデルを学習可能松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 58 / 78

65.

同時誤差を考慮した転移学習 TAT の学習問題交差エントロピー損失ドメイン識別器の敵対的損失転移可能特徴に関するドメイン識別器の敵対的損失転移可能特徴転移可能特徴に関するラベル識別器の敵対的損失転移可能特徴の⽣成 (敵対的事例の⽣成則 + 正則化) 松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 59 / 78

66.

同時誤差を考慮した転移学習 TAT による識別境界の学習と転移可能特徴の挙動 (a) Source Only Model 松井 (名古屋大) 転移学習 (b) TAT (c) Transferable Examples 転移学習のためのドメイン不変な表現学習 60 / 78

67.

同時誤差を考慮した転移学習 TAT の性能の評価 (識別精度) Table 1. Classification accuracies (%) on Office-31 for unsupervised domain adaptation with ResNet-50. M ETHOD R ES N ET-50 (H E ET AL ., 2016) DAN (L ONG ET AL ., 2015) DANN (G ANIN ET AL ., 2016) ADDA (T ZENG ET AL ., 2017) VADA (S HU ET AL ., 2018) GTA (S ANKARANARAYANAN ET AL ., 2018) MCD (S AITO ET AL ., 2018) CDAN (L ONG ET AL ., 2018) TAT A→W D→W W→D A→D D→A W→A AVG . 68.4±0.2 80.5±0.4 82.6±0.4 86.2±0.5 86.5±0.5 89.5±0.5 88.6±0.2 93.1±0.1 92.5±0.3 96.7±0.1 97.1±0.2 96.9±0.2 96.2±0.3 98.2±0.4 97.9±0.3 98.5±0.1 98.6±0.1 99.3±0.1 99.3±0.1 99.6±0.1 99.3±0.2 98.4±0.3 99.7±0.2 99.7±0.2 100.0±.0 100.0±.0 100.0±.0 68.9±0.2 78.6±0.2 81.5±0.4 77.8±0.3 86.7±0.4 87.7±0.5 92.2±0.2 92.9±0.2 93.2±0.2 62.5±0.3 63.6±0.3 68.4±0.5 69.5±0.4 70.1±0.4 72.8±0.3 69.5±0.1 71.0±0.3 73.1±0.3 60.7±0.3 62.8±0.2 67.5±0.5 68.9±0.5 70.5±0.4 71.4±0.4 69.7±0.3 69.3±0.3 72.1±0.3 76.1 80.4 82.7 82.9 85.4 86.5 86.5 87.5 88.4 Table 2. Classification accuracies (%) on Image-CLEF for unsupervised domain adaptation with ResNet-50. M ETHOD R ES N ET-50 (H E ET AL ., 2016) DAN (L ONG ET AL ., 2015) DANN (G ANIN ET AL ., 2016) CDAN (L ONG ET AL ., 2018) TAT 松井 (名古屋大) I→P P→I I→C C→I C→P P→C AVG . 74.8±0.3 74.5±0.4 75.0±0.3 76.7±0.3 78.8±0.2 83.9±0.1 82.2±0.2 86.0±0.3 90.6±0.3 92.0±0.2 91.5±0.3 92.8±0.2 96.2±0.4 97.0±0.4 97.5±0.3 78.0±0.2 86.3±0.4 87.0±0.5 90.5±0.4 92.0±0.3 65.5±0.3 69.2±0.4 74.3±0.5 74.5±0.3 78.2±0.4 91.2±0.3 89.8±0.4 91.5±0.6 93.5±0.4 94.7±0.4 80.7 82.5 85.0 87.1 88.9 転移学習転移学習のためのドメイン不変な表現学習 61 / 78

68.

目標ドメインの少数のラベル付きデータを利用する素朴な疑問 • 教師なし転移学習 (学習時からテスト時までずっと目標ドメインのラベルが無い状況) は妥当な問題設定なのか? • 目標ドメインでも少しはラベルが取れる状況を考える方が自然 → 伝統的な機械学習での半教師あり学習や能動学習に相当 • 半教師付き転移学習 → 目標ドメインで少量のラベル付きデータが使える • 能動的転移学習 → 目標ドメインでラベルを付与する事例を能動的に選択これらはより直接的に同時誤差を考慮する方法と解釈できる松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 62 / 78

69.

ミニマックスエントロピーに基づく半教師付き転移 [Saito+ ’19] 1. ドメイン不変なプロトタイプ (各クラスの代表元) を推定 2. 推定したプロトタイプを使って xiu から識別的特徴を抽出 → 特徴抽出器とラベル識別器の間の敵対的学習として定式化松井 (名古屋大) 転移学習転移学習のためのドメイン不変な表現学習 63 / 78

70.

能動的敵対的ドメイン適応 [Su+ ’20] Domain Adversarial Training (ドメイン適応) + Importance Weighting (能動学習) sample selection の方針 • 経験損失が大きい点を取る vs 重要度が高い点を取る • 重要度は GAN の discriminator から計算: 松井 (名古屋大) 転移学習 pT (x̂) pS (x̂) = 1−G∗d (x̂) G∗d (x̂) 転移学習のためのドメイン不変な表現学習 64 / 78

71.

非もつれ表現と転移学習への応用

output.html#@?

72.

非もつれ表現 (disentangled representation) • データが独立な複数の構成要素からなる場合にその独立成分を個別に取り出すような特徴表現 • 1 つの潜在変数が 1 つの生成因子にのみ寄与し, 他の生成因子には寄与しないようなデータの潜在表現 Fig : Evaluating the Unsupervised Learning of Disentangled Representations 松井 (名古屋大) 転移学習非もつれ表現と転移学習への応用 65 / 78

73.

非もつれ表現の学習変分オートエンコーダ (VAE) X qφ (z | X) z ∼ N (0, I) pθ (X | z) X̂ β-VAE [Higgins+ (2017)] ベースの方法が多数提案されている N 1 X Lβ = (Eq [log p (xn |z)] − β KL (q (z|xn ) ∥p(z))) N n=1 • β = 1 が通常の VAE • β > 1 とすることで第 2 項の罰則が学習に大きく寄与し, 非もつれ表現が獲得されやすくなる • ただし β のチューニングに sensitive 松井 (名古屋大) 転移学習非もつれ表現と転移学習への応用 66 / 78

74.

非もつれ表現の学習 female β-VAE β-TCVAE [Chen+ (2018)] Gender (-6, 6) male β-TCVAE Fig : [Chen+ 2018] Lβ−TC =Eq(z|n)p(n) [log p(n | z)] − αIq (z; n) Y X − β KL q(z) q (zj ) − γ KL (q (zj ) ∥p (zj )) • VAE の第 2 項をさらに分解し項別に重み付け (α と γ は 1 で固定) • 第 3 項は total correlation と呼ばれ, この項へのペナルティが独立な表現の獲得に大きく寄与する松井 (名古屋大) 転移学習非もつれ表現と転移学習への応用 67 / 78

75.

教師なし学習による非もつれ表現の獲得非もつれを教師なし学習することは可能なのか? → モデル or データセットに何らかの仮定 (帰納バイアス) がなければ無理 Theorem 5 (教師なし学習不可能性 (Locatello+ 2019)) d > 1 として, r.v. z が従う分布 P の密度関数が Q p(z) = di=1 p(zi ) と書けるとする. このとき, ある全単射 f : supp(z) → supp(z) の族が存在し, ∂fi (u) ̸= 0 a.e. ∀i, j ∂uj 2. P (z ≤ u) = P (f (z) ≤ u), ∀u ∈ supp(z) 1. 1 → z と f (z) は completely entangled 2 → z と f (z) は同じ周辺分布を持つ松井 (名古屋大) 転移学習非もつれ表現と転移学習への応用 68 / 78

76.

継続学習における非もつれ表現 i Life-Long Disentangled Representation [Achille+ (2018)] Fig : Achille+, NIPS2018 • 各クラスタが各シナリオにおけるデータ/環境に対応 • 各データ x は generative factors zn (座標のようなもの) の組で表される • 異なるクラスタでいくつかの generative factor を共有松井 (名古屋大) 転移学習非もつれ表現と転移学習への応用 69 / 78

77.

継続学習における非もつれ表現 ii A B 学習モデルの構造と推論 Generative Factor zn C Model Assumption s s s q (z |x ) = a N (µ(x), (x)) + (1 as ) N (0, I) as : latent mask model architecture Objective Function LMDL ( , ) = Ezs q (·|xs ) [ log p (x|zs , s)] Figure 1: A:β-VAE-like Schematic representation of the life-long learning data distr Reconstruction error corresponds to a cluster s. Data samples x sconstituting each cluster can be de + (|KL (q (z |xs ) p(z)) C )2 (data generative factors zn ). Different clusters may share some data generative Target Representation capacityloop. C: ConContinSchematic of the “dreaming” feedback We use a snapshot s ( old , ✓oldLatent ) to generate Mask aan imaginary batch of data xold for a previously experi the currentAtypicality environment, ensure the[qrepresentation KL Ethat (zns |xsbatch )] ispstill (zn )consistent o Score we n = xsbatch can reconstruct it (see red sdashed1,lines). if n < Latent Mask an = 0, otherwise Recent art approaches to非もつれ表現と転移学習への応用 unsupervised disentangled 松井 (名古屋大)state of the 転移学習 70 repre / 78

78.

継続学習における非もつれ表現 iii 学習モデルの構造と推論 (つづき) Environment s= ŝ sr+1 s if Ezŝ log p otherwise xsbatch |zŝ , ŝ Lŝ as = aŝ ŝ = arg max q (s|xsbatch ) s (“Dreaming” feedback) Lpast ( , ) = Ez,s ,x [D [q (z|x ) , q (z |x )] Encoder proximity + D [q (x|z, s ) , q (x |z, s )]] Decoder proximity Overall Objective L( , ) = LMDL ( , ) + Lpast ( , ) 松井 (名古屋大) 転移学習非もつれ表現と転移学習への応用 71 / 78

79.

継続学習における非もつれ表現 iv B Reconstructions as NatLab EDE Orig Reconstructions as EDE NatLab Orig NatLab/EDE Cross-Domain Reconstructions Disentangled Entangled C • VSAE (提案法, left) は 2 つのデータセットの “semantic homologies” (共通の generative factor) を見つけられる e.g. サボテン → 赤いオブジェクト松井 (名古屋大) 転移学習非もつれ表現と転移学習への応用 72 / 78

80.

まとめ

output.html#??

81.

本発表のまとめ • 転移学習の基本概念 • 教師なしドメイン適応における目標ドメインの期待リスク上界 • 教師なしドメイン適応の不可能性定理 • 深層モデルによるドメイン不変な表現学習 • 同時誤差も考慮に入れた転移学習 • 目標ドメインの少量のラベルデータを利用する方法 • 非もつれ表現の転移学習への応用松井 (名古屋大) 転移学習まとめ 73 / 78

82.

References [1] S. Ben-David and R. Urner. On the hardness of domain adaptation and the utility of unlabeled target samples. In International Conference on Algorithmic Learning Theory, pages 139–153. Springer, 2012. [2] Hal Daumé III. Frustratingly easy domain adaptation. ACL, 2007. [3] A. Achille et al. Life-long disentangled representation learning with cross-domain latent homologies. NeurIPS, 2018. [4] A. Romero et al. Fitnets: Hints for thin deep nets. ICLR, 2015. [5] B. K. Sriperumbudur et al. On the empirical estimation of integral probability metrics. Electronic Journal of Statistics, 6:1550–1599, 2012. [6] F. Locatello et al. Challenging common assumptions in the unsupervised learning of disentangled representations. ICML, 2019. [7] F. Zhuang et al. Supervised representation learning: Transfer learning with deep autoencoders. IJCAI, 2015. 松井 (名古屋大) 転移学習まとめ 74 / 78

83.

[8] G. Hinton et al. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. [9] H. Liu et al. Transferable adversarial training: A general approach to adapting deep classifiers. ICML, 2019. [10] H. Zhao et al. On learning invariant representations for domain adaptation, 2019. [11] I. Higgins et al. beta-vae: Learning basic visual concepts with a constrained variational framework. ICLR, 2017. [12] I. Redko et al. Optimal transport for multi-source domain adaptation under target shift. AISTATS, 2019. [13] I. Sato et al. Managing computer-assisted detection system based on transfer learning with negative transfer inhibition. KDD, 2018. [14] J. Quionero-Candela et al. Dataset shift in machine learning. The MIT Press, 2009. [15] J. Shen et al. Wasserstein distance guided representation learning for domain adaptation. In AAAI, 2018. [16] J. Su et al. Active adversarial domain adaptation. In IEEE/CVF Winter Conference on Applications of Computer Vision, 2020. 松井 (名古屋大) 転移学習まとめ 75 / 78

84.

[17] J. Yim et al. A gift from knowledge distillation: Fast optimization, network minimization and transfer learning. In CVPR, 2017. [18] K. Matsui et al. Variable selection for nonparametric learning with power series kernels. Neural computation, 31(8):1718–1750, 2019. [19] K. Saito et al. Semi-supervised domain adaptation via minimax entropy. In ICCV, 2019. [20] K. Zhou et al. Domain generalization with mixstyle. ICLR, 2021. [21] L. Duan et al. Learning with augmented features for heterogeneous domain adaptation. ICML, 2012. [22] M. Yamada et al. Relative density-ratio estimation for robust distribution comparison. Neural computation, 25(5):1324–1370, 2013. [23] N. Courty et al. Optimal transport for domain adaptation. IEEE transactions on pattern analysis and machine intelligence, 39(9):1853–1865, 2016. [24] S. Ben-David et al. Analysis of representations for domain adaptation. NIPS, 2007. [25] S. Ben-David et al. A theory of learning from different domains. Machine learning, 79(1):151–175, 2010. 松井 (名古屋大) 転移学習まとめ 76 / 78

85.

[26] S. Kuroki et al. Unsupervised domain adaptation based on source-guided discrepancy. In AAAI, 2019. [27] S. Rebuffi et al. Learning multiple visual domains with residual adapters. NeurIPS, 2017. [28] T. B. Brown et al. Language models are few-shot learners. NeurIPS, 2020. [29] T. Kanamori et al. A least-squares approach to direct importance estimation. JMLR, 10:1391–1445, 2009. [30] T. Kanamori et al. Statistical analysis of kernel-based least-squares density-ratio estimation. Machine Learning, 86(3):335–367, 2012. [31] T. Q. Chen et al. Isolating sources of disentanglement in variational autoencoders. NeurIPS, 2018. [32] T. Teshima et al. Few-shot domain adaptation by causal mechanism transfer. In ICML, 2020. [33] Y. Ganin et al. Domain-adversarial training of neural networks. JMLR, 17(1):2096–2030, 2016. [34] Y. Mansour et al. Domain adaptation: Learning bounds and algorithms. COLT, 2009. 松井 (名古屋大) 転移学習まとめ 77 / 78

86.

[35] T. Iwata and M. Yamada. Multi-view anomaly detection via robust probabilistic latent variable models. NeurIPS, 2016. [36] Bharath K Sriperumbudur, Kenji Fukumizu, Arthur Gretton, Bernhard Schölkopf, and Gert RG Lanckriet. On integral probability metrics,\phi-divergences and binary classification. arXiv preprint arXiv:0901.2698, 2009. [37] Masashi Sugiyama, Taiji Suzuki, and Takafumi Kanamori. Density ratio estimation in machine learning. Cambridge University Press, 2012. 松井 (名古屋大) 転移学習まとめ 78 / 78

不変性に基づく転移学習:理論と方法

松井孝太

関連スライド

mRNA-Seq入門【第四回】

mRNA-Seq 入門【第五回】

第一原理計算と密度汎関数理論

mRNA-Seq入門【第三回】

双極性障害の基本

OSPRayで可視化してみた

各ページのテキスト