不変性に基づく転移学習:理論と方法

34.9K Views

December 05, 21

スライド概要

滋賀大学データサイエンスセミナー発表資料。期待リスク最小化を基準とした転移学習の定義と分類の説明。教師なしドメイン適応における様々な不一致度に基づく期待リスク上界と不可能性定理の説明。ドメイン不変な表現学習による転移学習の方法と不変性の限界についての説明。非もつれ表現の定義と学習方法、その転移学習への応用例の紹介

profile-image

名古屋大学大学院 医学系研究科 生物統計学分野 講師。主に医学や材料科学分野における統計や機械学習の問題に興味があります。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

不変性に基づく転移学習:理論と方法 松井孝太 名古屋大学大学院医学系研究科 生物統計学分野 第 105 回データサイエンスセミナー @ 滋賀大学データサイエンス学部 / データサイエンス研究科 2021 年 12 月 3 日

2.

Table of contents i 1. はじめに 2. 転移学習の定式化 3. 教師なしドメイン適応の期待リスク上界の解析 4. 教師なしドメイン適応の不可能性定理 5. 転移学習のためのドメイン不変な表現学習 6. 非もつれ表現と転移学習への応用 7. まとめ 松井 (名古屋大) 転移学習 1 / 78

3.

はじめに

4.

転移学習? Inductive Transfer : 10 Years Later (NIPS’05 Workshop) における定義 帰納的転移または転移学習とは, 新しいタスクに対する有効な仮説を効率的 に見つけ出すために, 一つ以上の別のタスクで学習された知識を保持 · 適用 する問題を指す. → 定義がふんわりしていて結局何をするのか分からない 松井 (名古屋大) 転移学習 はじめに 2 / 78

5.

本発表の目的 • 転移学習を期待リスク最小化を通して体系的に整理する • 問題設定と定式化, それに基づく分類 • 従来の機械学習との関係 • 転移学習の統計的学習理論を説明する • 教師なし転移学習問題における期待リスクの上界評価 • 転移学習の具体的な方法の例を紹介する 注意 本発表では主に「ドメイン適応」を想定した解説をしており, 以下のトピックは扱っていません • メタ学習 • 継続学習 松井 (名古屋大) 転移学習 はじめに 3 / 78

6.

転移学習の定式化

7.

統計的機械学習 (教師あり学習) の問題設定 • 教師データ Dn = {(xi , yi )}ni=1 ⊂ X × Y • (xi , yi ) ∼i.i.d PX ×Y • データはある確率分布から独立にサンプリングされている と仮定 • 仮説 h : X → Y 入力から出力を予測する関数 • 損失関数 ℓ : Y × Y → R≥0 予測の間違いに対する罰則 Definition 1 (期待リスク) データ分布 PX ×Y の下での仮説 h の期待リスク R(h) := E(X,Y )∼PX ×Y [ℓ(h(X), Y )] 期待リスクが小さい → h の PX ×Y から生成されるデータに対する予測性能は高い  期待リスクの小さい仮説を仮説集合 H から見つければ良い  松井 (名古屋大) 転移学習 転移学習の定式化   4 / 78

8.

期待リスク最小な仮説の学習 一般に PX ×Y は未知なため, 期待リスクの代わりに経験リスク n 1X R̂(h) := ℓ(h(xi ), yi ) n i=1 を最小化して仮説 h を学習する: ĥ = arg min R̂(h) h∈H 経験リスク最小化の正当化 (大数の弱法則) (Xi , Yi ) ∼i.i.d PX ×Y のとき, ∀ε > 0 に対して   lim PrDn |R̂(h) − R(h)| > ε = 0 n→∞ • データが独立同一に分布 PX ×Y から得られるとき, データ 数を十分大きく取れば経験リスクと期待リスクの差は確率 的に 0 に収束する 松井 (名古屋大) 転移学習 転移学習の定式化 5 / 78

9.

転移学習の問題設定 目標ドメインで期待リスク最小の仮説を学習することが目的 ⽬標ドメイン が⼩さいまたは が観測されないなどの 理由で⽬標ドメインのみでは学習が困難 ⽬標ドメインの期待リスク最⼩の仮説 元ドメイン モデルを学習したいドメインと類似した 別のドメイン(元ドメイン)を持ってくる は⼗分⼤きいことを想定 や などを利⽤することで 少ないデータから効率的に仮説を学習 松井 (名古屋大) 転移学習 転移学習の定式化 6 / 78

10.

従来の機械学習の転移学習的解釈 伝統的な機械学習は元ドメイン = 目標ドメインを仮定: XS × YS = XT × YT and PXS ×YS = PXT ×YT この仮定の下では元ドメイン (学習データ) での学習が直接目 標ドメイン (テストデータ) でのリスク最小化になる 松井 (名古屋大) 転移学習 転移学習の定式化 7 / 78

11.

転移学習の基本的な問題 1. When to transfer (いつ転移するか) • 一般に元ドメインと目標ドメインは異なる • 直観的には 2 つのドメインが似ていると転移が上手くいく 可能性が高い • 不一致度などによってドメイン間の非類似度を定量化 • 転移仮定 (知識転移を成功させるために仮定をおく) • ドメインの非類似性に起因する負転移を回避したい • 転移によって目標ドメインの性能がむしろ悪化する現象 2. What to transfer (何を転移するか) • • • • 事例転移 (データそのものを転移) 特徴転移 (共通の特徴を抽出) パラメータ転移 (学習したモデルや特徴抽出器を転移) 因果メカニズム転移 3. How to transfer (どう転移するか, 具体的なアルゴリズム) 松井 (名古屋大) 転移学習 転移学習の定式化 8 / 78

12.

転移学習の基本問題: いつ転移するか? 負転移 (negative transfer) 1. 一方のドメインのみで学習したモデルを用いる 2. 転移学習によって学習したモデルを用いる で (2 の目標タスク性能) ≤ (1 の目標タスク性能) のとなる現象 1.0 1.0 0.8 0.8 0.6 0.6 AUC AUC 直観的にはドメインが乖離しているほど負転移が発生しやすい 0.4 source only target only transfer 0.2 0.0 The number of target training cases (a) 松井 (名古屋大) 転移学習 0.4 source only target only transfer 0.2 0.0 The number of target training cases (b) 転移学習の定式化 9 / 78

13.

転移学習の基本問題: いつ転移するか? 一般に, 元ドメインと目標ドメインは異なる (ドメインシフト) → ドメインの非類似性に対して様々な仮定をおく (転移仮定) 同質的ドメインシフト 分布シフト distribution shift 異質的ドメインシフト ドメイン汎化 domain generalization 異質的転移 heterogeneous transfer ⽬標ドメインは未知 (学習時に にアクセスできない) 同質的なケース (ラベル空間が共通) [Zhou+ ‘21] 元ドメイン ⻩⾊く細⻑い 果物で、⽪を 剥いて⾷べる… 元ドメイン ⽬標ドメイン ⽬標ドメインは既知 (学習時に ⽬標ドメインは既知 にアクセスできる) (学習時に 転移仮定 [Quionero-Candela+ ‘09] Style Transfer 共変量シフト (covariate shift) ラベル事前確率シフト (label prior shift) サンプル選択バイアス (sample selection bias) クラスバランスシフト (class balance shift) 異質的なケース (ラベル空間が異なる) • • • • 転移学習 にアクセスできる) 転移仮定 [Duan+ ’12, Ganin+ ‘15] [Rebuffi+ ‘17] • 共通の特徴(潜在)空間 ⽬標ドメイン 元ドメイン 特徴抽出 Visual Decathlon 松井 (名古屋大) ⽬標ドメイン 特徴空間 転移学習の定式化 10 / 78

14.

転移学習の基本問題: いつ転移するか? 分布シフトに対する転移仮定 [Quionero-Candela+ ’09] • データセットシフト : PS (X, Y ) ̸= PT (X, Y ) 目標ドメインのラベルありデータが使えることが前提 • 共変量シフト : PS (Y | X) = PT (Y | X), PS (X) ̸= PT (X) • クラス事前確率シフト (ターゲットシフト) : PS (X | Y ) = PT (X | Y ), PS (Y ) ̸= PT (Y ) • サンプル選択バイアス : PS (X, Y ) = P (X, Y | v = 1), PT (X, Y ) = P (X, Y ) v は (X, Y ) が学習データに含まれる (v = 1) か否 (v = 0) か • クラスバランスシフト [Redko+ ’19] : PS = (1 − πS )P0 + πS P1 , PT = (1 − πT )P0 + πT P1 (πS ̸= πT ) P0 , P1 はクラス 0, 1 に対応する共変量分布 松井 (名古屋大) 転移学習 転移学習の定式化 11 / 78

15.
[beta]
転移学習の基本問題: いつ転移するか?
異質的ドメインシフトに対する転移仮定
共通の特徴空間 [Duan+ ’12, Ganin + ’15, Iwata&Yamada ’16]
元ドメイン

⽬標ドメイン

Latent space

次元が異なる

!%
!"
#

$ &' !
(
*)
"

W1 !

共通空間

" W2
"

!%
!"
#

$ &'
(
* )

γ
!

' )*
( &
$

%#
"
!

"

Observed view 1
[Duan+ (ICML2012)]
松井 (名古屋大)

転移学習

Observed view 2

(a)
[Iwara&Yamada
(NIPS2016)]

Figure 1: (a) A multi-view anomaly ‘M’ and a single-vie
letter represents an instance, and the same letter indica
matrix for view d. (b) Graphical model representation of
転移学習の定式化
12 / 78

16.

転移学習の基本問題: いつ転移するか? 不一致度 (discrepancy) : 両ドメインの確率分布の分布間 (疑) 距離で非類似度を測る • 不一致度が小さいとき, 目標ドメインのデータは元ドメインとよく似た 生成メカニズムを持っていると考える • 様々な discrepancy が定義されている • H ダイバージェンス [Ben-David+ ’10] • Wasserstein 距離 [Courty+ ’17] • source-guided discrepancy [Kuroki+ ’19] 松井 (名古屋大) 転移学習 転移学習の定式化 13 / 78

17.

転移学習の基本問題: 何を転移するか? 元ドメインから目標ドメインへ転移する「知識」によって定式 化や方法が変わる ⽬標ドメイン 元ドメイン データ集合 事例転移 特徴量 例:重要度重み付き学習 学習済の仮説 特徴転移 例:ドメイン敵対的学習 転移学習の⽬的 パラメータ転移 ⽬標ドメインの期待リスク最⼩の仮説 例:事前学習とファインチューン 松井 (名古屋大) 転移学習 転移学習の定式化 14 / 78

18.

転移学習の基本問題: どう転移するか?例 I 転移学習のシナリオ: 同質的なドメインシフト 転移仮定 (when) : 共変量シフト PT (Y | X) = PS (Y | X) S 転移の対象 (what) : 元ドメインのデータ DS = {(xSi , yiS )}ni=1   重要度重み付き経験リスク最小化 [Sugiyama+ ’12] nS 1 X r̂(xi )ℓ(h(xi ), yi ) ĥT = arg min nS h∈H i=1 ここで, r̂(x) は確率密度比 r(x) = pT (x)/pS (x) の推定量   • まず r̂(·) を推定し, その後重み付き ERM する 2 段階の方法 • 目標ドメインのラベルデータがなくても使える (教師なし 転移) 松井 (名古屋大) 転移学習 転移学習の定式化 15 / 78

19.

転移学習の基本問題: どう転移するか?例 I 重要度重み付き学習の正当化 共変量シフトの仮定の下では目標ドメインの期待リスク RT (x) は元ドメインの重み付き期待リスクとして書ける: RT (h) = E(X,Y )∼PT (X,Y ) [ℓ(h(X), Y )] Z Z = ℓ(h(x), y)pT (x, y)d(x, y) Z Z (x,y) = (x,y) Z Z = pS (x) ℓ(h(x), y) pT (y | x) pT (x) d(x, y) pS (x) | {z } =pS (y|x) pT (x) d(x, y) ℓ(h(x), y) pS (y | x)pS (x) pS (x) | {z } (x,y) =pS (x,y) Z Z pT (x) d(x, y) pS (x)   pT (X) = E(X,Y )∼PS (X,Y ) ℓ(h(X), Y ) pS (X) = ℓ(h(x), y)pS (x, y) (x,y) 松井 (名古屋大) 転移学習 転移学習の定式化 16 / 78

20.

転移学習の基本問題: どう転移するか?例 I 密度比 r(x) = PT (x)/PS (x) を推定する方法 • 制約なし最小二乗重要度フィッティング (uLSIF) [Kanamori+ ’09] Z 1 min (r(x; θ) − r(x))2 pS (x)dx θ 2 Z Z 1 2 = min r(x; θ) pS (x)dx − r(x; θ)pT (x)dx θ 2 nS nT 1 X 1 X ≈ min (r(xSi ; θ))2 − r(xTj ; θ) + λReg(θ) θ 2nS n T i=1 j=1 ここで, r(x; θ) は r(x) のモデル • r(x; θ) にカーネルモデルを使う (KuLSIF) [Kanamori+ ’12] • KuLSIF モデルの下で共変量の変数選択をする [Matsui+ ’19] • 相対密度比 rα (x) = pT (x) (1−α)pT (x)+αpS (x) の推定 [Yamada+ ’13] • 密度比に変更を加えて推定値が発散するのを防ぐ • 推定方法は KuLSIF と同様 松井 (名古屋大) 転移学習 転移学習の定式化 17 / 78

21.
[beta]
転移学習の基本問題: どう転移するか?例 II
記号の準備
• p 次 Wasserstein 距離

Wp (P, Q) =
inf

Z

′ p

′

c(x, x ) dµ(x, x )

µ∈Γ(P,Q) X ×X

1/p
, P, Q ∈ Pp (X )

• (X , c) : 距離空間
• P(X ) : X 上の確率分布の集合
R
• Pp (X ) = {P ∈ P(X ) | X c(x, x′ )p dP (x) < ∞, ∀x′ ∈ X }
: p 乗可積分な分布の集合
• Γ(P, Q) = {µ : X × X 上の分布 | µ(·, X ) = P (·), µ(X , ·) = Q(·)}
: P と Q のカップリング

• Kantrovich-Rubinstein 双対性
W1 (P, Q) = sup Ex∼P [f (x)] − Ex∼Q [f (x)], P, Q ∈ P1 (X )
f :1-Lip

• 1-Lip : 1-リプシッツ連続な関数 i.e. |f (x) − f (x′ )|/c(x, x′ ) ≤ 1
松井 (名古屋大)

転移学習

転移学習の定式化

18 / 78

22.

転移学習の基本問題: どう転移するか?例 II 転移学習のシナリオ: 同質的なドメインシフト 転移仮定 (when) : 共変量シフト PT (Y | X) = PS (Y | X) 転移の対象 (what) : 元ドメインの特徴量 F S   Wasserstein 距離による不変表現学習 [Shen+ ’18] min max LWD (xS , xT ) − γLgrad (F̂ ) θg θw • LWD (xS , xT ) = 1 X 1 X hθw (fθg (xS )) − hθ (fθ (xT )) nS S nT T w g x x → PS と PT の間の経験 Wasserstein 距離の KR 双対表現  • Lgrad (F̂ ) = (∥∇F̂ hθw (F̂ )∥ − 1)2 , F̂ ∈ 線分 fθg (xS )-fθg (xT )  fθg で抽出した特徴量がどちらのドメイン由来かを hθw で識別 Lgrad は hθw のリプシッツ性を保証するための罰則項 松井 (名古屋大) 転移学習 転移学習の定式化 19 / 78

23.

転移学習の基本問題: どう転移するか?例 II 特徴抽出器 ラベル識別器 元ドメイン データ … 元ドメイン 特徴量 ⽬標ドメイン データ … ⽬標ドメイン 特徴量 識別誤差 … … … Wasserstein距離 … ドメインクリティック 実際にはラベル識別器 hθc も同時学習:  n o min Lc (xS , y S ) + λ max LWD (xS , xT ) − γLgrad (F̂ ) θg ,θc θw • Lc (xS , y S ) = − n1S 松井 (名古屋大) 転移学習 P nS P ℓ i=1 k=1 1{yiS =k} log hθc (fθg (xSi ))k 転移学習の定式化 20 / 78

24.

転移学習の基本問題: どう転移するか?例 III 転移学習のシナリオ: 同質的/異質的なドメインシフト 転移仮定 (when) : 同一構造の NN で処理することの妥当性 転移の対象 (what) : 学習済み NN モデルのパラメータ  NN モデルの事前学習とファインチューン  ··· ···  松井 (名古屋大) 転移学習 転移学習の定式化  21 / 78

25.

When/What/How の新しい方向性: 因果構造に基づく転移学習 データ分布の背後にある因果モデルに対して転移仮定をおく [Teshima+ ’20] 松井 (名古屋大) 転移学習 転移学習の定式化 22 / 78

26.

教師なしドメイン適応の期待リスク 上界の解析

27.

教師なしドメイン適応における典型的なリスク上界 教師なしドメイン適応 S • 元ドメインのラベルありデータ DS = {(xSi , yiS )}ni=1 T • 目標ドメインのラベルなしデータ DT = {xTj }nj=1 • 同質的なドメインシフト: XS = XT , PXS ̸= PXT の下で, 目標ドメインの期待リスクを最小にする仮説を学習: h∗T = arg min RT (h) = E(x,y)∼PX h∈H T ×YT [ℓ(y, h(x))] 典型的な RT (h) の上界の形 RT (h) ≤ RS (h) + Disc(PXT , PXS ) + Diff(fT , fS ) • fT , fS : 目標ドメイン, 元ドメインの真の出力関数 • Disc : 元ドメインと目標ドメインの周辺分布の不一致度 • Diff : 元ドメインと目標ドメインのラベル関数の違い 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 23 / 78

28.

例 I 全変動距離に基づく RT (h) の上界   全変動 (total variation) 距離 dT V (P, Q) := 2 sup |P (A) − Q(A)|, A : 可測集合 A   仮定 • YS = YT = {0, 1} (2 値判別) • ℓ(y, ŷ) = 1y̸=ŷ (0-1 損失) 定理 [Ben-David+ ’06] 任意の h ∈ H に対して, 以下が成立 RT (h) ≤ RS (h) + dT V (PXT , PXS ) n o + min EPXS [|fS (X) − fT (X)|] , EPXT [|fS (X) − fT (X)|] • dT V が仮説集合によらないので上界が緩い • dT V が全ての可測集合を考慮するので有限サンプル近似が困難 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 24 / 78

29.

例 I 全変動距離に基づく RT (h) の上界 (証明) • RS (h, fT ) = Ex∼PXS [h(x) − fT (x)] • RT (h, fS ) = Ex∼PXT [h(x) − fS (x)] RT (h) ≤ RS (h) + |RS (h, fT ) − RS (h)| + |RT (h) − RS (h, fT )| ≤ RS (h) + EPXS [|fS (X) − fT (X)|] + |RT (h) − RS (h, fT )| ≤ RS (h) + EPXS [|fS (X) − fT (X)|] + dT V (PXT , PXS ) 1 行目で RS (h, fT ) の代わりに RT (h, fS ) を使うと RT (h) ≤ RS (h) + EPXT [|fS (X) − fT (X)|] + dT V (PXT , PXS ) 2 つのバウンドの右辺第 2 項の min を取って合わせれば主張を 得る 2 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 25 / 78

30.

例 II H-ダイバージェンスに基づく RT (h) の上界 引き続き 2 値判別を考える  H-ダイバージェンス  dH∆H (P, Q) := 2 sup |P (Ih ) − Q(Ih )| h∈H∆H   • H∆H = {h ⊕ h′ | h, h′ ∈ H} (⊕ は排他的論理和) • x ∈ Ih ⇔ h(x) = 1 p • H の VC 次元が d のとき, dH∆H ≤ dˆH∆H + O( d/n) 定理 [Ben-David+ ’10] 任意の h ∈ H に対して, 以下が成立 1 RT (h) ≤ RS (h) + dH∆H (PXT , PXS ) + min(RS (h) + RT (h)) h∈H 2 • dH∆H は仮説集合を考慮して定まり, dT V より大きくならない (dT V の困難の緩和) 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 26 / 78

31.

例 II H-ダイバージェンスに基づく RT (h) の上界 (証明) 損失関数の三角不等式から RT (h) = RT (h, fT ) ≤ RT (h∗ , fT ) + RT (h, h∗ ) ≤ RT (h∗ ) + RS (h, h∗ ) + |RT (h, h∗ ) − RS (h, h∗ )| 1 ≤ RT (h∗ ) + RS (h) + RS (h∗ ) + dH∆H (PXT , XS ) 2 1 = RS (h) + dH∆H (PXT , PXS ) + min(RS (h) + RT (h)) 2 h∈H 2 • 第 3 項は同時誤差などと呼ばれ, これを達成する仮説 h∗ は 理想的な同時仮説と呼ばれる • 一般に同時誤差は小さいとは限らず, また目標ドメインの ラベル情報がないと推定できない (上界が緩い可能性) • H ダイバージェンスが 0-1 損失に依存している (限定的) 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 27 / 78

32.

例 III 不一致距離に基づく RT (h) の上界 0 − 1 損失以外の損失関数にリスク上界評価を拡張する  不一致距離 ddisc (P, Q; ℓ) :=  sup h,h′ ∈H×H  |EP [ℓ(h(x), h′ (x))] − EQ [ℓ(h(x), h′ (x))]|  • ℓ : Y × Y → R+ は任意の損失関数 • 0-1 損失 ℓ(y, y ′ ) = 1{y̸=y′ } に対して以下が成立 1 ddisc (P, Q; 1{y̸=y′ } ) = dH∆H (P, Q) 2 ′ ′ • ℓ(y, y ) ≤ M , y, y ∈ Y を満たす損失に対して以下が成立 ddisc (P, Q; ℓ) ≤ M dT V (P, Q) 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 28 / 78

33.

例 III 不一致距離に基づく RT (h) の上界 定理 [Mansour+ ’09] • h∗S = arg min RS (h) : 元ドメインの最適な仮説 h∈H • h∗T = arg min RT (h) : 目標ドメインの最適な仮説 h∈H • ℓ : 対称で三角不等式を満たす有界損失関数 任意の h ∈ H に対して, 以下が成立 RT (h) ≤ RS (h, h∗S ) + ddisc (PXT , PXS ; ℓ) + RT (h∗T ) + RT (h∗T , h∗S ) (証明) 損失の三角不等式を 2 回使う RT (h) = RT (h, fT ) ≤ RT (h, h∗S ) + RT (h∗S , h∗T ) + RT (h∗T , fT ) {z } | =RT (h∗ T) ≤ |RT (h, h∗S ) − RS (h, h∗S )| +RS (h, h∗S ) + RT (h∗S , h∗T ) + RT (h∗T ) 2 | {z } ≤ddisc (PXT ,PXS ;ℓ) 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 29 / 78

34.

例 III 不一致距離に基づく RT (h) の上界 不一致距離の有限サンプル近似上界 仮定 • ℓq (y, , y ′ ) = |y − y ′ |q , ℓq (y, , y ′ ) ≤ M (∀y, y ′ ∈ Y) 命題 [Mansour+ ’09] 任意の δ > 0 に対して 1 − δ の確率で以下が成立   ddisc (PXT , PXS ; ℓq ) ≤ ddisc (P̂XT , P̂XS ; ℓq ) + 4q ℜ̂T,nT (H) + ℜ̂S,nS (H) s  s log(4/δ) log(4/δ)  + 3M  + 2nT 2nS • P̂XT , P̂XS : サイズ nT , nS の経験分布 • ℜ̂T,nT (H), ℜ̂S,nS (H) : H の経験ラデマッハ複雑度 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 30 / 78

35.

例 IV Wasserstein 距離に基づく RT (h) の上界  1 次 Wasserstein 距離 (再掲) Z c(x, x′ )dµ(x, x′ ) W1 (PXT , PXS ) = inf  µ∈Γ(PXT ,PXS ) X ×X   仮定 • ℓ(y, y ′ ) = |y − y ′ | • 仮説 h ∈ H は K-リプシッツ連続 定理 [Shen+ ’18] RT (h) ≤ RS (h) + 2KW1 (PXT , PXS ) + min(RS (h) + RT (h)) h∈H 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 31 / 78

36.

例 IV Wasserstein 距離に基づく RT (h) の上界 (証明) h∗ = arg min(RS (h) + RT (h)) とする h∈H ∗ RT (h) ≤ RT (h ) + RT (h∗ , h) ≤ RT (h∗ ) + RS (h, h∗ ) + RT (h, h∗ ) − RS (h, h∗ ) ≤ RT (h∗ ) + RS (h, h∗ ) + 2KW1 (PXT , PXS ) ≤ RT (h∗ ) + RS (h) + RS (h∗ ) + 2KW1 (PXT , PXS ) = RS (h) + 2KW1 (PXT , PXS ) + min(RS (h) + RT (h)) 2 h∈H • 2 行目 ∼3 行目: h, h′ が K-Lip のとき |h − h′ | は 2K-Lip であるこ とと K-R 双対性を使う RT (h, h′ ) − RS (h, h′ ) = EPXT [h(x) − h′ (x)] − EPXS [h(x) − h′ (x)] ≤ sup f :2K-Lip EPXT [f (x)] − EPXS [f (x)] = 2KW1 (PXT , PXS ) 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 32 / 78

37.

例 IV Wasserstein 距離に基づく RT (h) の上界  Integral Probability Metrics (IPM) [Sriperumbudur+ ’09] γG (P, Q) := sup |EP [g] − EQ [g]| g∈G    • 関数空間 G のとり方で様々な不一致度を表現できる • Wasserstein 距離, 全変動距離, カーネル MMD などを含む • e.g. G : 1-Lip 関数全体のとき, γG (P, Q) = W1 (P, Q) 定理 [Sriperumbudur+ ’09] 確率 1 − δ 以上で以下のサンプル近似上界が成立 |γG (PT , PS ) − γG (P̂T , P̂S )| r   4 1 1 ≤ 2ℜT,nT (G) + 2ℜS,nS (G) + M 18 log +√ √ δ nT nS • ℜT,nT (G), ℜS,nS (G) : G のラデマッハ複雑度 • nT , nS : 各ドメインのサンプルサイズ • M = supx∈X ,g∈G g(x) 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 33 / 78

38.

例 IV Wasserstein 距離に基づく RT (h) の上界 一般の IPM のサンプル近似上界の系として以下が成り立つ 定理 [Sriperumbudur+ ’09] X が Rd (d > 2) の有界部分集合のとき, |W1 (PXT , PXS ) − W1 (P̂XT , P̂XS )| = Op 1 1/d+1 nT + 1 ! 1/d+1 nS [Shen+ ’18] の結果と合わせると, 以下の W1 に基づく RT (h) の 上界の有限サンプル近似を得る ! 1 1 RT (h) ≤ R̂S (h) + W1 (P̂XT , P̂XS ) + Op + 1/d+1 1/d+1 nT nS + min(RS (h) + RT (h)) h∈H 松井 (名古屋大) 転移学習 教師なしドメイン適応の期待リスク上界の解析 34 / 78

39.

教師なしドメイン適応の不可能性定 理

40.

教師なしドメイン適応の必要条件 教師なしドメイン適応でおかれる理論的な仮定 • 共変量シフト PT (Y | X) = PS (Y | X) • 小さい不一致度 Disc(PXT , PXS ) : small • 小さい同時誤差 λ = Diff(fT , fS ) : small 以降では特に λ = λH = minh∈H RS (h) + RT (h) を考える 実はこれらの条件は教師なしドメイン適応の (理論的な) 必要 条件になっている → 不可能性定理 (impossibility theorem) 松井 (名古屋大) 転移学習 教師なしドメイン適応の不可能性定理 35 / 78

41.

準備 i ドメイン適応学習器 2 値判別問題を考える Definition 2 (ドメイン適応学習器) A: ∞ [ ∞ [ (X × {0, 1})m × X n → {0, 1}X m=1 n=1 元ドメインのラベル付きデータと目標ドメインのラベルなしデ ータから仮説を学習するアルゴリズムを写像として書いたもの 松井 (名古屋大) 転移学習 教師なしドメイン適応の不可能性定理 36 / 78

42.

準備 ii 学習可能性 Definition 3 (学習可能性) 目標ドメインの分布 PT が元ドメインの分布 PS と仮説集合 H によって A (ε, δ, m, n)-学習可能 :⇐⇒ Pr S∼i.i.d (PS )m n Tu ∼i.i.d (PXT ) [RT (A (S, Tu )) ≤ RT (H) + ε] ≥ 1 − δ • RT (H) = inf h∈H RT (h) • S : 元ドメインのサイズ m のラベルありデータ • Tu : 目標ドメインのサイズ n のラベルなしデータ データの出方の確率分布に対して, A が学習した仮説の期待リスク ≤ H で達成可能な最小の期待リスク + ε が 1 − δ 以上の確率で成り立つこと 松井 (名古屋大) 転移学習 教師なしドメイン適応の不可能性定理 37 / 78

43.
[beta]
転移仮定の必要性定理: 小さい不一致度の必要性
Theorem 1 (H∆H が小さいことの必要性 (Ben-David+ 2010))
ある B ⊂ A に対して, 集合 {h−1 (1) ∩ B | h ∈ H} は 2 つ以上の部分
集合を持ち, かつそれらは集合の包含関係で全順序付けられている
とする.
このとき, 任意の ε > 0 に対して, ある元ドメイン上の同時分布 PS0
と目標ドメイン上の同時分布 PT0 が存在して, 以下を満たす:
任意のドメイン適応学習器 A と任意の整数 m, n > 0 に対して, ある
ラベル関数 f : X → {0, 1} が存在して
1. λH < ε
2. PS0 と PT0 は共変量シフト条件を満たす
3. 期待リスクが確率

以上で大きい:


1
1
≥
Pr 0 m RTf (A(S, Tu )) ≥
2
2
S∼i.i.d (PS )
n
0
Tu ∼i.i.d (PX
)
T

松井 (名古屋大)

転移学習

1
2

教師なしドメイン適応の不可能性定理

38 / 78

44.
[beta]
転移仮定の必要性定理: 小さい同時誤差の必要性
Theorem 2 (λH が小さいことの必要性 (Ben-David+ 2010))
H を X 上の仮説集合で, VCdim (H) < |X | とする.
このとき, 任意の ε > 0 に対して, ある元ドメイン上の同時分布 PS0
と目標ドメイン上の同時分布 PT0 が存在して, 以下を満たす:
任意のドメイン適応学習器 A と任意の整数 m, n > 0 に対して, ある
ラベル関数 f : X → {0, 1} が存在して
1. dH∆H (PX0 T , PX0 S ) < ε
2. PS0 と PT0 は共変量シフト条件を満たす
3. 期待リスクが確率

1
2

以上で大きい:


Pr

S∼i.i.d (PS0 )m
n
0
Tu ∼i.i.d (PX
)

RTf (A(S, Tu )) ≥


1
1
≥
2
2

T

松井 (名古屋大)

転移学習

教師なしドメイン適応の不可能性定理

39 / 78

45.

転移仮定の必要性定理 定理の解釈 共変量シフトの仮定があっても, • 周辺分布の間の不一致度が小さいこと • 同時誤差が小さいこと のいずれかが欠ければ, 高い確率で期待リスクが大きくなって しまう 松井 (名古屋大) 転移学習 教師なしドメイン適応の不可能性定理 40 / 78

46.
[beta]
例 [Ben-Davis+ 2010]
PS

2ξ

0

PT

6ξ 8ξ 10ξ

4ξ

y=1
y=0

ξ

3ξ

5ξ

7ξ 9ξ 11ξ

• PS : {(2kξ, 1) | k ∈ N} 上の一様分布 (元ドメイン)
• PT : {((2k + 1)ξ, 0) | k ∈ N} 上の一様分布 (目標ドメイン)
• ξ ∈ (0, 1) は 2kξ, 2(k + 1)ξ ≤ 1 なる小さい数 (Fig : ξ =
(
(
)
1 x<t
• H = ht (x) =
t ∈ [0, 1]
0 otherwise

2
23 )

このとき, RT (H) = RS (H) = 0 で, 以下が成立:
1. PS , PT は共変量シフトを満たす
2. dH∆H (PT , PS ) = ξ (不一致度は小さい)
3. λH = 1 − ξ よって RT (h∗S ) ≥ 1 − ξ (目標リスクは大きい)
松井 (名古屋大)

転移学習

教師なしドメイン適応の不可能性定理

41 / 78

47.

ドメイン適応不可能性定理 i 準備 Definition 4 (ドメイン適応の学習可能性をちょっと修正) • W = {(PXS , PXT , f )} : 教師なしドメイン適応問題の集合 • A : ドメイン適応学習器 • S = {(xsi , f (xsi ))}, xsi ∼i.i.d PXS (元ドメインデータ) • Tu = {xti }, xti ∼i.i.d PXT (目標ドメインデータ) このとき, A (ε, δ, m, n) がクラス W に対するドメイン適応問 題を解決可能 :⇐⇒ Pr [RT (A (S, Tu )) ≤ ε] ≥ 1 − δ, ∀(PXS , PXT , f ) ∈ W クラス W のどんな教師なし DA の設定が来ても A は高い確率 で目標リスクが小さい仮説を学習できる, という解釈 松井 (名古屋大) 転移学習 教師なしドメイン適応の不可能性定理 42 / 78

48.

ドメイン適応不可能性定理 ii 準備 Definition 5 (マージン γ の仮説) • X ⊂ Rd • DX : X 上の分布 • h : X → {0, 1} : 判別器 • Bγ (x) : 中心 x ∈ X , 半径 γ の球体 h が DX に関して γ-マージンの判別器 :⇐⇒ DX (Bγ (x)) > 0, h(y) = h(z), ∀x ∈ X , ∀y, z ∈ Bγ (x) 同値な言い換え (h は DX の台上でリプシッツ): 1 |h(y) − h(z)| ≤ ∥y − z∥, y, z ∈ supp(DX ) 2γ 松井 (名古屋大) 転移学習 教師なしドメイン適応の不可能性定理 43 / 78

49.

ドメイン適応不可能性定理 iii Theorem 3 ((Ben-David&Urner 2012)) 任意の有限集合 X と ε + δ < 12 を満たす任意の ε, δ > 0 に対 して以下を仮定: p m + n < (1 − 2(ε + δ))|X |. このとき, • dH∆H (PXT , PXS ) = 0 • min RT (h, f ) = 0 (h ≡ 1, h ≡ 0 ∈ H) h∈H • CB (PXS , PXT ) := PXS (B) 1 ≥ , B ⊂ 2X 2 B∈B,PXT (B)̸=0 PXT (B) inf であるような教師なしドメイン適応のクラス W に対して, (PS , PT , f ) ∈ W を (ε, δ, m, n)-解決するようなドメイン適応学 習器 A は存在しない 松井 (名古屋大) 転移学習 教師なしドメイン適応の不可能性定理 44 / 78

50.

定理に関する Remark 仮定の解釈 (ドメイン適応をするのに有利な設定) • Theorem 3では, 目標タスクに対して “目標ドメインのラベ ルありデータが 1 点でもあれば誤差ゼロの仮説が学習可 能” という強い仮定を置いている • また, 元ドメインと目標ドメインは不一致度及び密度比ど ちらで図っても “似ている” ようなクラスを想定 不可能性の回避 [Ben-David&Urner (2012)] Theorem 3で • X = [0, 1]d • ラベル関数 f : λ-リプシッツ p のとき, m + n ≥ (1 − 2(ε + δ))(1 − λ)d が成り立てばクラス W を解決するような A が存在する 松井 (名古屋大) 転移学習 教師なしドメイン適応の不可能性定理 45 / 78

51.

Usefulness of Unlabeled Data 目標ドメインのラベルなしデータはドメイン適応においてどの 程度役にたっているのか? Theorem 4 ((Ben-David&Urner (2012))) X = [0, 1]d , VCdim (H) < +∞ とし, DA のクラス W を以下で定める:  W =  (PS , PT , f ) RT (H) = 0, CB (PXS , PXT ) ≥ 0 . このとき, ∃c > 1, ∀ε > 0, δ > 0, (PS , PT , f ) ∈ W , 元ドメインと目標 ドメインのサンプルサイズをそれぞれ    VCdim (H) + log 1δ VCdim (H) m≥c log CB (PXS , PXT )(1 − ε)ε CB (PXS , PXT )(1 − ε)ε   1 2|X | log 3|X | n≥ ε δ ととると, Pr[RT (A(S, Tu )) ≤ ε] ≥ 1 − δ が成立つ A が存在する 松井 (名古屋大) 転移学習 教師なしドメイン適応の不可能性定理 46 / 78

52.

転移学習のためのドメイン不変な表 現学習

53.

深層学習の発展が転移学習に与えた影響  (巨大) 事前学習モデルの利用可能性の拡大 • 事前学習済みモデルをファインチューニングして使うこと で少ないコストで高い性能のモデルが利用できる • 蒸留などの NN の圧縮技術の発展で小さいモデルで高い性 能のモデルが利用できる  深層モデルによる表現学習の方法の発展 • ハンドメイドしていた特徴量を深層モデルが自動的に獲得 • 特にデータからドメインに関する特徴の抽出 も可能に • ドメイン不変な特徴量の獲得 • 非もつれ表現 (disentangled representation) → 特徴を独立な成分に分解し, ドメイン間で共有されてい る成分は転移し, 異なっている成分は転移しない 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 47 / 78

54.

不変な表現学習を目指す理論的根拠   目標ドメインの期待リスク RT (h) の上界 (再掲) RT (h) ≤ RS (h) + Disc(PXT , PXS ) + Diff(fT , fS )   特に Disc の最小化を目的とすることが多い • RS (h) : PXT ×YT に依らない元ドメインの期待リスク • 元ドメインの大量のデータで学習すれば小さくできる • Diff(fT , fS ) : 元ドメインと目標ドメインの同時誤差 • 教師なし転移学習では定数扱い (fT が推定できないため) なぜ不変な特徴表現か? • 一般に深層モデルで扱う問題は異質的ドメインシフトであ ることが多い • 不変特徴表現 ≈ 共通空間への特徴抽出 + 分布マッチング 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 48 / 78

55.

深層学習以前の特徴表現: カーネル法の場合 • 全結合型 2 層 NN として解釈可能 • 特徴抽出器 (入力層-中間層) は固定 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 49 / 78

56.

カーネル法に基づく転移学習 元ドメイン ⽬標ドメイン 次元が異なる ``いらいらするほど簡単なDA’’ [Daume III, ACL2007] 共通空間 ドメイン共通の特徴 ドメイン固有の特徴 [Duan+ (ICML2012)] min max PS ,PT α 1 ⊤ 1⊤ ns +nt α − (α ◦ y) KPS ,PT (α ◦ y) 2 s.t. y ⊤ α = 0, 0ns +nt ≤ α ≤ C1ns +nt ∥PS ∥2F ≤ λp , ∥PT ∥2F ≤ λq 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 50 / 78

57.

深層ニューラルネットによる転移学習のための表現学習 • ドメイン不変な特徴抽出器/特徴表現を学習する • オートエンコーダーや敵対的学習など様々なアプローチ 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 51 / 78

58.

深層オートエンコーダーによる表現学習に基づく転移学習 • 深層オートエンコーダーによる教師付き表現学習 [Zhuang+ (2015)] min Err(x, x̂) +α (KL(PS ||PT ) + KL(PT ||PS )) +β ℓ(yS ; θ, ξS ) +γReg | {z } | | {z } {z } reconst. error discrepancy softmax loss • 元ドメインと目標ドメインで符号化と復号化の重みを共有 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 52 / 78

59.

敵対的訓練による表現学習に基づく転移学習 ドメイン敵対的訓練 (Domain Adversarial Training) [Ganin+ (2015)] • ドメイン識別器の学習は gradient に負定数をかけ逆伝播 する勾配反転層を導入することで実現 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 53 / 78

60.

ドメイン敵対的訓練の学習問題 アイデア: 潜在空間上での H-ダイバージェンスの最小化 予測ラベル 観測ラベル 観測ドメインラベル 元ドメインデータ の特徴量 予測ドメインラベル 予測ドメインラベル 元ドメインデータ の特徴量 ⽬標ドメインデータ の特徴量 損失関数の気分 経験 -ダイバージェンス : 元ドメインの特徴集合 ドメイン識別器 を学習して推定 : ⽬標ドメインの特徴集合 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 54 / 78

61.

不変性のみを考慮することの限界 目標ドメインのリスク上界 (再掲) RT (h) ≤ RS (h) + Disc(PXT , PXS ) + Diff(fT , fS ) • 不変な特徴表現の獲得 = 第 2 項の最小化 • 同時誤差 Diff(fT , fS ) は無視 → 目標ドメインのラベル関数が考慮されない (上図) 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 55 / 78

62.

不変性のみを考慮することの限界 • 実験的な同時誤差の検証 [Liu+ (2019)] • DANN のようなドメイン不変な表現学習のみを行う手法で は同時誤差 RS (h) + RT (h) が大きくなるような仮説が学習 されてしまう 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 56 / 78

63.

不変性と同時誤差の関係 同時誤差の下界 [Zhao+ (2019)] RS (h ◦ g) + RT (h ◦ g) 1 ≥ (dJS (PYT , PYS )) − dJS (PZT , PZS )))2 2 • g : 特徴抽出器 • h : ラベル識別器 • dJS : JS ダイバージェンスの平方根 • Z : g によって抽出された特徴量の空間 • ドメイン不変な表現学習に基づく転移学習が成功するため の必要条件 • 右辺第 1 項 (ラベル分布の不一致度) が大きいとき, 右辺第 2 項の最小化 (不変表現学習) は RT (h ◦ g) を悪化させる 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 57 / 78

64.

同時誤差を考慮した転移学習 Transferable Adversarial Training (TAT) [Liu+ (2019)] • 元ドメインと目標ドメインのギャップを埋めるような疑似 データ (転移可能事例) を生成 • 転移可能事例を含めてラベル識別器を訓練 → ドメイン不変な表現学習を経由せずに目標ドメインで 汎化するモデルを学習可能 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 58 / 78

65.

同時誤差を考慮した転移学習 TAT の学習問題 交差エントロピー損失 ドメイン識別器の 敵対的損失 転移可能特徴に関する ドメイン識別器の敵対的損失 転移可能特徴 転移可能特徴に関する ラベル識別器の敵対的損失 転移可能特徴の⽣成 (敵対的事例の⽣成則 + 正則化) 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 59 / 78

66.

同時誤差を考慮した転移学習 TAT による識別境界の学習と転移可能特徴の挙動 (a) Source Only Model 松井 (名古屋大) 転移学習 (b) TAT (c) Transferable Examples 転移学習のためのドメイン不変な表現学習 60 / 78

67.

同時誤差を考慮した転移学習 TAT の性能の評価 (識別精度) Table 1. Classification accuracies (%) on Office-31 for unsupervised domain adaptation with ResNet-50. M ETHOD R ES N ET-50 (H E ET AL ., 2016) DAN (L ONG ET AL ., 2015) DANN (G ANIN ET AL ., 2016) ADDA (T ZENG ET AL ., 2017) VADA (S HU ET AL ., 2018) GTA (S ANKARANARAYANAN ET AL ., 2018) MCD (S AITO ET AL ., 2018) CDAN (L ONG ET AL ., 2018) TAT A→W D→W W→D A→D D→A W→A AVG . 68.4±0.2 80.5±0.4 82.6±0.4 86.2±0.5 86.5±0.5 89.5±0.5 88.6±0.2 93.1±0.1 92.5±0.3 96.7±0.1 97.1±0.2 96.9±0.2 96.2±0.3 98.2±0.4 97.9±0.3 98.5±0.1 98.6±0.1 99.3±0.1 99.3±0.1 99.6±0.1 99.3±0.2 98.4±0.3 99.7±0.2 99.7±0.2 100.0±.0 100.0±.0 100.0±.0 68.9±0.2 78.6±0.2 81.5±0.4 77.8±0.3 86.7±0.4 87.7±0.5 92.2±0.2 92.9±0.2 93.2±0.2 62.5±0.3 63.6±0.3 68.4±0.5 69.5±0.4 70.1±0.4 72.8±0.3 69.5±0.1 71.0±0.3 73.1±0.3 60.7±0.3 62.8±0.2 67.5±0.5 68.9±0.5 70.5±0.4 71.4±0.4 69.7±0.3 69.3±0.3 72.1±0.3 76.1 80.4 82.7 82.9 85.4 86.5 86.5 87.5 88.4 Table 2. Classification accuracies (%) on Image-CLEF for unsupervised domain adaptation with ResNet-50. M ETHOD R ES N ET-50 (H E ET AL ., 2016) DAN (L ONG ET AL ., 2015) DANN (G ANIN ET AL ., 2016) CDAN (L ONG ET AL ., 2018) TAT 松井 (名古屋大) I→P P→I I→C C→I C→P P→C AVG . 74.8±0.3 74.5±0.4 75.0±0.3 76.7±0.3 78.8±0.2 83.9±0.1 82.2±0.2 86.0±0.3 90.6±0.3 92.0±0.2 91.5±0.3 92.8±0.2 96.2±0.4 97.0±0.4 97.5±0.3 78.0±0.2 86.3±0.4 87.0±0.5 90.5±0.4 92.0±0.3 65.5±0.3 69.2±0.4 74.3±0.5 74.5±0.3 78.2±0.4 91.2±0.3 89.8±0.4 91.5±0.6 93.5±0.4 94.7±0.4 80.7 82.5 85.0 87.1 88.9 転移学習 転移学習のためのドメイン不変な表現学習 61 / 78

68.

目標ドメインの少数のラベル付きデータを利用する 素朴な疑問 • 教師なし転移学習 (学習時からテスト時までずっと目標ド メインのラベルが無い状況) は妥当な問題設定なのか? • 目標ドメインでも少しはラベルが取れる状況を考える方 が自然 → 伝統的な機械学習での半教師あり学習や能動学習に相当 • 半教師付き転移学習 → 目標ドメインで少量のラベル付きデータが使える • 能動的転移学習 → 目標ドメインでラベルを付与する事例を能動的に選択 これらはより直接的に同時誤差を考慮する方法と解釈できる 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 62 / 78

69.

ミニマックスエントロピーに基づく半教師付き転移 [Saito+ ’19] 1. ドメイン不変なプロトタイプ (各クラスの代表元) を推定 2. 推定したプロトタイプを使って xiu から識別的特徴を抽出 → 特徴抽出器とラベル識別器の間の敵対的学習として定式化 松井 (名古屋大) 転移学習 転移学習のためのドメイン不変な表現学習 63 / 78

70.

能動的敵対的ドメイン適応 [Su+ ’20] Domain Adversarial Training (ドメイン適応) + Importance Weighting (能動学習)  sample selection の方針 • 経験損失が大きい点を取る vs 重要度が高い点を取る • 重要度は GAN の discriminator から計算: 松井 (名古屋大) 転移学習 pT (x̂) pS (x̂) = 1−G∗d (x̂) G∗d (x̂) 転移学習のためのドメイン不変な表現学習 64 / 78

71.

非もつれ表現と転移学習への応用

72.

非もつれ表現 (disentangled representation) • データが独立な複数の構成要素からなる場合にその独立成 分を個別に取り出すような特徴表現 • 1 つの潜在変数が 1 つの生成因子にのみ寄与し, 他の生成因 子には寄与しないようなデータの潜在表現 Fig : Evaluating the Unsupervised Learning of Disentangled Representations 松井 (名古屋大) 転移学習 非もつれ表現と転移学習への応用 65 / 78

73.

非もつれ表現の学習 変分オートエンコーダ (VAE) X qφ (z | X) z ∼ N (0, I) pθ (X | z) X̂ β-VAE [Higgins+ (2017)] ベースの方法が多数提案されている N 1 X Lβ = (Eq [log p (xn |z)] − β KL (q (z|xn ) ∥p(z))) N n=1 • β = 1 が通常の VAE • β > 1 とすることで第 2 項の罰則が学習に大きく寄与し, 非もつれ表現が獲得されやすくなる • ただし β のチューニングに sensitive 松井 (名古屋大) 転移学習 非もつれ表現と転移学習への応用 66 / 78

74.

非もつれ表現の学習 female β-VAE β-TCVAE [Chen+ (2018)] Gender (-6, 6) male β-TCVAE Fig : [Chen+ 2018] Lβ−TC =Eq(z|n)p(n) [log p(n | z)] − αIq (z; n)   Y X − β KL q(z) q (zj ) − γ KL (q (zj ) ∥p (zj )) • VAE の第 2 項をさらに分解し項別に重み付け (α と γ は 1 で固定) • 第 3 項は total correlation と呼ばれ, この項へのペナルティが独 立な表現の獲得に大きく寄与する 松井 (名古屋大) 転移学習 非もつれ表現と転移学習への応用 67 / 78

75.

教師なし学習による非もつれ表現の獲得 非もつれを教師なし学習することは可能なのか? → モデル or データセットに何らかの仮定 (帰納バイアス) がなけれ ば無理 Theorem 5 (教師なし学習不可能性 (Locatello+ 2019)) d > 1 として, r.v. z が従う分布 P の密度関数が Q p(z) = di=1 p(zi ) と書けるとする. このとき, ある全単射 f : supp(z) → supp(z) の族が存在し, ∂fi (u) ̸= 0 a.e. ∀i, j ∂uj 2. P (z ≤ u) = P (f (z) ≤ u), ∀u ∈ supp(z) 1. 1 → z と f (z) は completely entangled 2 → z と f (z) は同じ周辺分布を持つ 松井 (名古屋大) 転移学習 非もつれ表現と転移学習への応用 68 / 78

76.

継続学習における非もつれ表現 i Life-Long Disentangled Representation [Achille+ (2018)] Fig : Achille+, NIPS2018 • 各クラスタが各シナリオにおけるデータ/環境に対応 • 各データ x は generative factors zn (座標のようなもの) の 組で表される • 異なるクラスタでいくつかの generative factor を共有 松井 (名古屋大) 転移学習 非もつれ表現と転移学習への応用 69 / 78

77.

継続学習における非もつれ表現 ii A B 学習モデルの構造と推論 Generative Factor zn C Model Assumption s s s q (z |x ) = a N (µ(x), (x)) + (1 as ) N (0, I) as : latent mask model architecture Objective Function LMDL ( , ) = Ezs q (·|xs ) [ log p (x|zs , s)] Figure 1: A:β-VAE-like Schematic representation of the life-long learning data distr Reconstruction error corresponds to a cluster s. Data samples x sconstituting each cluster can be de + (|KL (q (z |xs ) p(z)) C )2 (data generative factors zn ). Different clusters may share some data generative Target Representation capacityloop. C: ConContinSchematic of the “dreaming” feedback We use a snapshot s ( old , ✓oldLatent ) to generate Mask aan imaginary batch of data xold for a previously experi the currentAtypicality environment, ensure the[qrepresentation KL Ethat (zns |xsbatch )] ispstill (zn )consistent o Score we n = xsbatch can reconstruct it (see red sdashed1,lines). if n < Latent Mask an = 0, otherwise Recent art approaches to非もつれ表現と転移学習への応用 unsupervised disentangled 松井 (名古屋大)state of the 転移学習 70 repre / 78

78.

継続学習における非もつれ表現 iii 学習モデルの構造と推論 (つづき) Environment s= ŝ sr+1 s if Ezŝ log p otherwise xsbatch |zŝ , ŝ Lŝ as = aŝ ŝ = arg max q (s|xsbatch ) s (“Dreaming” feedback) Lpast ( , ) = Ez,s ,x [D [q (z|x ) , q (z |x )] Encoder proximity + D [q (x|z, s ) , q (x |z, s )]] Decoder proximity Overall Objective L( , ) = LMDL ( , ) + Lpast ( , ) 松井 (名古屋大) 転移学習 非もつれ表現と転移学習への応用 71 / 78

79.

継続学習における非もつれ表現 iv B Reconstructions as NatLab EDE Orig Reconstructions as EDE NatLab Orig NatLab/EDE Cross-Domain Reconstructions Disentangled Entangled C • VSAE (提案法, left) は 2 つのデータセットの “semantic homologies” (共通の generative factor) を見つけられる e.g. サボテン → 赤いオブジェクト 松井 (名古屋大) 転移学習 非もつれ表現と転移学習への応用 72 / 78

81.

本発表のまとめ • 転移学習の基本概念 • 教師なしドメイン適応における目標ドメインの期待リスク 上界 • 教師なしドメイン適応の不可能性定理 • 深層モデルによるドメイン不変な表現学習 • 同時誤差も考慮に入れた転移学習 • 目標ドメインの少量のラベルデータを利用する方法 • 非もつれ表現の転移学習への応用 松井 (名古屋大) 転移学習 まとめ 73 / 78

82.

References [1] S. Ben-David and R. Urner. On the hardness of domain adaptation and the utility of unlabeled target samples. In International Conference on Algorithmic Learning Theory, pages 139–153. Springer, 2012. [2] Hal Daumé III. Frustratingly easy domain adaptation. ACL, 2007. [3] A. Achille et al. Life-long disentangled representation learning with cross-domain latent homologies. NeurIPS, 2018. [4] A. Romero et al. Fitnets: Hints for thin deep nets. ICLR, 2015. [5] B. K. Sriperumbudur et al. On the empirical estimation of integral probability metrics. Electronic Journal of Statistics, 6:1550–1599, 2012. [6] F. Locatello et al. Challenging common assumptions in the unsupervised learning of disentangled representations. ICML, 2019. [7] F. Zhuang et al. Supervised representation learning: Transfer learning with deep autoencoders. IJCAI, 2015. 松井 (名古屋大) 転移学習 まとめ 74 / 78

83.

[8] G. Hinton et al. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. [9] H. Liu et al. Transferable adversarial training: A general approach to adapting deep classifiers. ICML, 2019. [10] H. Zhao et al. On learning invariant representations for domain adaptation, 2019. [11] I. Higgins et al. beta-vae: Learning basic visual concepts with a constrained variational framework. ICLR, 2017. [12] I. Redko et al. Optimal transport for multi-source domain adaptation under target shift. AISTATS, 2019. [13] I. Sato et al. Managing computer-assisted detection system based on transfer learning with negative transfer inhibition. KDD, 2018. [14] J. Quionero-Candela et al. Dataset shift in machine learning. The MIT Press, 2009. [15] J. Shen et al. Wasserstein distance guided representation learning for domain adaptation. In AAAI, 2018. [16] J. Su et al. Active adversarial domain adaptation. In IEEE/CVF Winter Conference on Applications of Computer Vision, 2020. 松井 (名古屋大) 転移学習 まとめ 75 / 78

84.

[17] J. Yim et al. A gift from knowledge distillation: Fast optimization, network minimization and transfer learning. In CVPR, 2017. [18] K. Matsui et al. Variable selection for nonparametric learning with power series kernels. Neural computation, 31(8):1718–1750, 2019. [19] K. Saito et al. Semi-supervised domain adaptation via minimax entropy. In ICCV, 2019. [20] K. Zhou et al. Domain generalization with mixstyle. ICLR, 2021. [21] L. Duan et al. Learning with augmented features for heterogeneous domain adaptation. ICML, 2012. [22] M. Yamada et al. Relative density-ratio estimation for robust distribution comparison. Neural computation, 25(5):1324–1370, 2013. [23] N. Courty et al. Optimal transport for domain adaptation. IEEE transactions on pattern analysis and machine intelligence, 39(9):1853–1865, 2016. [24] S. Ben-David et al. Analysis of representations for domain adaptation. NIPS, 2007. [25] S. Ben-David et al. A theory of learning from different domains. Machine learning, 79(1):151–175, 2010. 松井 (名古屋大) 転移学習 まとめ 76 / 78

85.

[26] S. Kuroki et al. Unsupervised domain adaptation based on source-guided discrepancy. In AAAI, 2019. [27] S. Rebuffi et al. Learning multiple visual domains with residual adapters. NeurIPS, 2017. [28] T. B. Brown et al. Language models are few-shot learners. NeurIPS, 2020. [29] T. Kanamori et al. A least-squares approach to direct importance estimation. JMLR, 10:1391–1445, 2009. [30] T. Kanamori et al. Statistical analysis of kernel-based least-squares density-ratio estimation. Machine Learning, 86(3):335–367, 2012. [31] T. Q. Chen et al. Isolating sources of disentanglement in variational autoencoders. NeurIPS, 2018. [32] T. Teshima et al. Few-shot domain adaptation by causal mechanism transfer. In ICML, 2020. [33] Y. Ganin et al. Domain-adversarial training of neural networks. JMLR, 17(1):2096–2030, 2016. [34] Y. Mansour et al. Domain adaptation: Learning bounds and algorithms. COLT, 2009. 松井 (名古屋大) 転移学習 まとめ 77 / 78

86.

[35] T. Iwata and M. Yamada. Multi-view anomaly detection via robust probabilistic latent variable models. NeurIPS, 2016. [36] Bharath K Sriperumbudur, Kenji Fukumizu, Arthur Gretton, Bernhard Schölkopf, and Gert RG Lanckriet. On integral probability metrics,\phi-divergences and binary classification. arXiv preprint arXiv:0901.2698, 2009. [37] Masashi Sugiyama, Taiji Suzuki, and Takafumi Kanamori. Density ratio estimation in machine learning. Cambridge University Press, 2012. 松井 (名古屋大) 転移学習 まとめ 78 / 78