【DL輪読会】Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees

8.9K Views

November 17, 23

#勾配ブースティングツリー #拡散モデル #表形式データ生成 #欠損値補完 #ForestDiffusion

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees Takeyuki Nakae http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 論⽂タイトル(URL: https://arxiv.org/abs/2309.09968) • 概要勾配ブースティングを⽤いて表形式のデータを⽣成することができる • Github(実装) https://github.com/SamsungSAILMontreal/ForestDiffusion 2

https://github.com/SamsungSAILMontreal/ForestDiffusion

拡散モデル • 拡散モデルノイズから実データを⽣成することができる⽣成モデルノイズを徐々に除去する「ノイズ除去モデル」を利⽤することで、本物の画像(データ)に近いデータを⽣成することができる。学習は、ノイズ付与後の画像からノイズ付与前の画像がどのようなものだったかを予測することで学習できる。ただし完全なノイズからいきなり画像を予測できないので、予測しやすいように徐々にノイズを付与する。このためどれくらいノイズを付与したかのノイズレベルというのが存在する。有名な例: Stable-diffusion 3

決定⽊・勾配ブースティング • 決定⽊「特徴①≦5は左、5<特徴①は右」のようにデータを分割して予測を⾏う機械学習アルゴリズム。分割時の予測値の損失が最⼩になるように学習。 • 勾配ブースティング決定⽊(弱学習器)を構築した後に、その予測の誤差を修正するように新たな決定⽊を構築して予測を⾏うモデル。 • Xgboost 2次テイラー展開・⾼速並列化/分散システム・⾼速分位点分割・スパース性を考慮した分割探索を⽤いた定番の勾配ブースティング。 4

研究背景① テーブルデータ⽣成は重要なデータの匿名化のために重要しかしデータ⽣成には以下の課題が存在する。 • データ数が少ない • ⽋損値がある →⽋損値はNN系のモデルでは対応できない。 A B C D 12 catA 0.1 100 23 None 0.55 1000 None catA None 500 10 catB 0.25 None これまでの⽣成モデルの対策として、⽋損値の削除と補完があった。 • ⽋損値の削除: df.dropna() 課題: 削除するとデータ数が減少する • ⽋損値の補完: df.fillna() 課題:モデルにバイアスがかかる可能性 5

研究背景② これまでの⽣成モデルの対策として、⽋損値の削除と補完があった。 • ⽋損値の削除: df.dropna() 課題: 削除するとデータ数が減少する • ⽋損値の補完: df.fillna() 課題:モデルにバイアスがかかる可能性今までの⽣成モデル(データの近似)はNNがベース →NNは⽋損値を扱うことができない勾配ブースティングは⽋損値にも対応→勾配ブースティングでいけるのでは? 実データ生成データ A B C D 12 catA 0.1 100 23 catB 0.55 1000 データを近似するモデル NN ↓ 勾配ブースティング A B C D 10 catB 0.122 10 32 catB 0.501 500 6

本研究の特徴(メリット) • 他のテーブルデータ⽣成モデルと⽐べても⽣成の性能が⾼い 24データセット・4つの観点からも良い評価 • ⽋損値があってもデータを学習できる従来の研究では⽋損値の対処が必要 • GPUを⽤いずとも⾼速な⽣成が可能 CPUを並列で利⽤してトレーニングするように実装 GPUも利⽤可能 • ⽋損値の補完(インピュテーション)も可能性能は既存研究には劣る 7

Method 概要 • DNN(深層ニューラルネットワーク)を⽤いたノイズ除去の⽅法ノイズを⼊⼒し、単⼀のノイズ除去モデルでノイズの除去何度か繰り返して、⽣成データを作成する。しかし、勾配ブースティングはDNNとは事情が異なるため、さまざまな⾯で異なる⽅法を取る必要がある。何度か繰り返す生成データノイズノイズ除去モデル NN A B C D 12 catA 0.1 100 23 catB 0.55 1000 8

Method 概要勾配ブースティングでノイズ除去を⾏うために、以下の⽅法について説明する。 1. 1. Duplicating the data to produce many data-noise pairs ノイズと実データの対応⽅法 2. 2. Training different models per noise level ノイズ除去の⽅法について 3. 5. Data processing and regularizations 学習する前の処理について 4. 3. Choice of GBT データを近似する勾配ブースティングを選択 5. 4. Imputation Imputationについて適宜紹介: Algorithm アルゴリズム詳細 9

10.

⼿法 • 勾配ブースティングの場合全データと全データと同サイズのノイズを⽤意する。性能を上げるために、上記のデータを 100個複製※してモデルを学習する。サンプルデータモデルデータノイズデータデータ 100 ノイズノイズモデル 1. Duplicating the data to produce many data-noise pairs • DNNの場合データをサンプリングしてバッジ学習ができる ※多ければ⼤きいほど良いがメモリの都合上100を上限する 10

11.

⼿法 2. Training different models per noise level • DNNの場合ノイズをそのままノイズ除去モデルに⼊⼒することで、徐々にノイズ除去ができる • 勾配ブースティングの場合学習するノイズに新たな特徴量ノイズレベルtを⼊⼒することで、ノイズレベルに応じた学習が可能。しかし、決定⽊の分割にはランダム性がある。 →特徴選択によってはノイズレベルtを選択しない可能性このため、ノイズレベルごとに異なるモデルを訓練する。ノイズ + ノイズレベルt変数ノイズ t 0.9 0.24 -1.2 50 1.1 0.1 -0.7 40 1.12 0.012 -0.5 30 11

12.

⼿法 5. Data processing and regularizations • 学習前のデータ変換カテゴリ変数: ダミー変数に変換連続的数値: -1~1に変換 catA catB catC catD catE 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 • 復元カテゴリ変数: 確率が最も⾼かったカテゴリの要素に変換連続的数値: 逆変換(整数値は近い値に丸める) catA catB catC catD catE cat 0.99 0.002 0.002 0.003 0.003 0.1 0.2 0.5 0.1 0.1 catC 0.01 0.05 0.025 0.9 0.025 catD 変換 catA 12

13.

⼿法 5. Data processing and regularizations • ノイズ除去モデルについてノイズの除去は、各特徴量⼀つ⼀つに対して推定する。 (Xgboostは⼀つの変数に対してしか予測ができないため。) またハイパーパラメータは、L2正則化を0にした以外はデフォルトスコア関数の推定が⽬的なのでモデルの過学習の⼼配をする必要はない。 • ノイズ除去モデルの学習数値データ: 平均⼆乗誤差を損失関数に使⽤カテゴリデータ: tabddpmで提案されたスコア関数を損失関数に使⽤損失関数: 13

14.

⼿法(アルゴリズム) 6. Algorithm ForestDiffusionの学習の流れについて 1. 実データ𝑋を𝑛!"#$% 倍複製する(𝑋 & ) 2. 𝑋 & と同サイズのノイズを作成する(𝑍) 3. Forwardで𝑋 & と𝑍をノイズデータの作成(𝑋 𝑡 , 𝑌(𝑡))と、ノイズ除去を⾏う⽬的変数を作成する 4. Xgboostでモデルを学習する。なお⼊⼒は実データとノイズを混ぜた𝑋 𝑡 を⼊⼒し、除去すべきノイズである 𝑌(𝑡)を予測する 5. 3.~4.を𝑛' 回繰り返し、ノイズ除去モデルf 𝑡 を作成する 14

15.

⼿法(アルゴリズム) 6. Algorithm ノイズ除去モデルf 𝑡 を⽤意 1. ⽣成したいデータサイズ分のノイズ 𝑋 𝑛' を⽤意 2. Reverseでモデルを元にノイズ除去を 𝑛' 回実⾏ 3. 実データ𝑋 0 が出⼒される 15

16.

⼿法 3. Choice of GBT 経験的にXgboostが最も良かったのでXgboostを利⽤した。 4. Imputation Imputationは画像の⽋損を補完するインペインティングと同じようなもののため、テーブルデータでも有効。 →拡散モデル⼿法である「REPAINT」を応⽤する。 REPAINTとは? 拡散モデルを⽤いたインペインティング拡散確率モデル(DDPM)を⽤いて画像を復元する。 ※フロー⽅式でインペインティングする⽅法もあるが⽋損値があると難しいため本研究では利⽤していない。 16

17.

⼿法(アルゴリズム) 6. Algorithm f 𝑡 はXgboostのノイズ除去モデル 𝑋はn(obs)×pのサイズの実データノイズ𝑋 𝑛! も実データと同じサイズ⽤意 𝑀は0と1で表され、⽋損値は0、⽋損無しは 1で表される。以下の⾏為を𝑛! 回繰り返す 1. 𝑋(𝑡 − 1)の空のデータセットを作成する 2. 𝑋 𝑡 − 1 1 − 𝑀 (⽋損値のあるデータ箇所)に対してReverseでノイズ除去 3. 𝑋(𝑡 − 1) 𝑀 (⽋損値のないデータ箇所)に対して、Forwardでノイズ付与 17

18.

Method 概要勾配ブースティングを⽤いたノイズ除去の⽅法 DNNは単⼀のモデルでノイズ除去を⾏うが、勾配ブースティングは⼀般的に⼀つの変数のみに対して予測を⾏う。このため、勾配ブースティングは、「特徴量の数×ノイズ除去の回数」個のモデルを作成し、ノイズ除去を⾏う除去する順番に応じてモデルが変わり、これを繰り返して⽣成データを作成する。何度か繰り返すノイズノイズ除去モデル GradientBoosting モデルモデル・・・モデルテーブルデータモデル 18

19.

実験(セットアップ) 実験は24データセット(分類・回帰)で⾏い、内容は以下の3 つ(訓練80%・テスト 20%) 1. ⽋損値のないデータ⽣成の性能(完全データ⽣成) 2. ⽋損値埋め(インピュテーション) 3. ⽋損値のあるデータ⽣成の性能(不完全データ⽣成) ⽣成データの品質評価は、 • 実データと⽣成データの分布の近さ(ワッサースタイン距離) • ⽣成データの多様性(Coverrage) • ⽣成データでの学習→実データでの予測精度(R2スコア・F1-Score) • 統計的推論(Percent Bias) ※VP-diffusionを使⽤する場合は我々の⼿法をForest-VPとし、条件付きフローマッチングを使⽤する場合は Forest-Flowとする。 19

20.

実験(データ⽣成性能{⽋損なし}) 上の表を確認すると、Forest-flowが（ほぼすべてのメトリクスで）⼀般的に最も⾼い性能を⽰した。 ※比較手法は、 Gaussian Copula・TVAE・CTGAN・CTAB-GAN+・STaSy・TabDDPM(Oracleは実データ) 20

21.

実験(データ⽣成性能{⽋損あり}) 上の表を確認すると、Forest-flowは、半分の実験結果でTabDDPMより優れていた。 ※比較手法は、 Gaussian Copula・TVAE・CTGAN・CTAB-GAN+・STaSy・TabDDPM 21

22.

実験(インピュテーション) ※データを20%欠損値に変更することで実験をした。結果は上の表となる。最も優れた⼿法は、MICE-ForestとMissForest。 Forest-Flowは⽐較的性能が良くみえるが⼀概に良いとは⾔えない。 ※比較手法は、kNN-Imputation・ICE・MissForest・MICE-Forest・softimpute・minibatch Sinkhorn divergence・MIDAS・GAIN 22

23.

まとめ考察 ForestDiffusionの特徴 • 学習データに⽋損値が含まれる場合でも、リアルに近いデータを⽣成できる。性能は近年の深層学習⼿法と同等かそれ以上。 • 多様なインピュテーションも可能しかし性能は既存研究のMICE-ForestとMissForest • GPUや深層学習が必須ではないしかし学習にミニバッチを利⽤しないため、メモリコストは他の⼿法(深層学習)より⾼い。さらにデータセットを𝑛!"#$% 倍(デフォルト100倍)複製しているため、データセットが⾮常に⼤きくなるとさらにメモリが悪化する。 23

24.

まとめ今後の課題今後の課題 • 既存の性能の良い拡散モデルの⼿法を適⽤する。例: Multinomial Diffusion Model(TabDDPMで利⽤されている) Elucidating the Design Space of Diffusion-Based Generative Models classifier-free guidance • XGBoostモデルをミニバッチで訓練する⽅法を⾒つける。メモリの節約ができる • 将来的な応⽤データ増強、クラス不均衡、ドメイン翻訳タスクに適⽤する。 24

25.

appendix • Forward Process 25

26.

appendix • Reverse Process 26

27.

appendix • Ablation Study 27