[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式データに対するディープラーニングモデルの再整理

857 Views

March 22, 22

#dee #Deep Learning #Tabular Data #FT-Transformer #NeurIPS 2021 #Comparison

スライド概要

2022/03/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式データに対するディープラーニングモデルの再整理山本貴之（ヤフー株式会社） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Revisiting Deep Learning Models for Tabular Data 表形式データに対するディープラーニングモデルの再整理 https://arxiv.org/abs/2106.11959 (NeurIPS 2021) 著者： Yury Gorishniy*†‡ , Ivan Rubachevy†♣, Valentin Khrulkov† , Artem Babenko ♣ † Yandex （ロシア） ‡ モスクワ物理工学大学（ロシア） ♣ 国立研究大学高等経済学院（ロシア）概要：表形式データについて、ディープラーニング(以下DL)と GBDT(決定木系)で精度比較提案手法FT-Transformerを中心に、11のデータセットで比較し優位性を考察した選定理由：ビジネスでは表形式データを扱う機会が多い文章･画像・音声を含む表形式データをend to endで学習し精度を出すにはDL活用が重要公式実装： https://github.com/yandex-research/rtdl ※出典記載の無い図表は本論文からの引用 2

アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 3

アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 4

１. 導入  文章、画像、音声などの領域におけるDLの成功により、表形式データの問題への拡張が注目されている背景  表形式データはGBDTという強力なライバルがいるが、DLでより高い性能が得られる可能性がある  表形式データに加え、画像や音声が含まれる場合、DLはマルチモーダルなパイプラインを構築出来るのが魅力的最近  表形式データに対するDLソリューションが多数提案されている  確立されたベンチマークがない為、各論文が異なるデータセットを用い、互いに適切に比較されていない課題  DLとGBDTの比較においても上記同様  多様なタスクで安定した性能を発揮する、シンプルで信頼性の高いソリューションが不足している 5

アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 6

２. 先行研究 DL or GBDT 本論文で用いる表形式データに対するソリューション一覧分類論文仕組み決定木 NODE (Popov et al., 2020) 微分可能な決定木 TabNet (Arik and Pfister, 2020) 逐次処理。表形式データのプレトレーニングという概念を実現 AutoInt (Song et al., 2019) 本論文のFT-Transformer の概念に最も類似 GrowNet (Badirli et al., 2020) 浅いニューラルネットワークを用いた勾配ブースティング SNN (Klambauer et al., 2017) 深いMLP。勾配消失や発散を防ぐ SELU活性化関数などを提案 DCN V2 (Wang et al., 2020a). クロスネットワーク構造を含むMLP。 Googleが大規模データで活用。アテンション DL MLP GBDT XGBoost (Chen and Guestrin, 2016) - CatBoost (Prokhorenkova et al., 2018) - 決定木 7

２. 先行研究 TabNet (Arik and Pfister, 2020)  TabNetの推論処理の全体像  特徴を疎に選択(=Attention)し、逐次処理する構造  どの特徴量が推論に効いているか解釈可能入力データ投資の特徴量が選択されている逐次処理で連結職業専門性の特徴量が選択されている推論出力 8

２. 先行研究 TabNet (Arik and Pfister, 2020)  エンコーダー構造逐次処理特徴量選択特徴量 Transformer  推論出力  表現出力特徴量解釈特徴量入力 9

10.

２. 先行研究  デコーダー構造 TabNet (Arik and Pfister, 2020) エンコーダー出力の表現ベクトル各Stepの特徴量Transformer 再構築された特徴量 10

11.

２. 先行研究 TabNet (Arik and Pfister, 2020)  表形式データをマスクドランゲージモデルのように一部マスク  穴埋め問題を解かせて、プレトレーニングを実現  プレトレーニング済モデル活用で、精度が向上し、少量データで短期収束可能 11

12.

アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 12

13.

３. 手法 MLP （本論文での提案構造①）  全結合MLP→ReLU→Dropoutを何層か重ねたもの出力入力全結合全結合 13

14.

３. 手法 ResNet （本論文での提案構造②）  ResNet構造のシンプルなバリエーションを提案  より深い表現が必要なタスクで有用（仮説）全結合出力入力バイパス 14

15.

３. 手法 FT-Transformer 全体構造（本論文での提案構造③ 本命）  表形式データの各要素をTokenizerでベクトル化し、Transformerに投入後[CLS]トークン部を用いる FT-Transformerの全体アーキテクチャ入力表形式データ [CLS]トークン部を用いる各特徴量当図では５つの値連続値、カテゴリカル 2種類それぞれの手法で Tokenizeする ※次ページで説明各セル(縦方向)が 1カラムのデータ横方向がベクトルの次元数のイメージ先頭に[CLS] トークン付加エンベディングされたベクトル ※後のページで説明 192次元 15

16.

３. 手法 FT-Transformer トークナイザー詳細  連続値、カテゴリカル、それぞれ次の構造、数式によりトークナイズされ、192次元ベクトルとなる FT-Transformer全体 FT-Transformerのトークナイザー部連続値の式連続値３つの値バイアスデータカラム数特徴量数ウエイト行列連続値カテゴリカルの式カテゴリカル 2つの値 192次元カテゴリ分のサイズの行列バイアスカテゴリカルの one hot ベクトルウエイト行列 16

17.

３. 手法 FT-Transformer Transformer内部構造  当論文で用いるTransformer層はPreNorm変形型[2] をベースに、最初の正規化を除外した構造 ※実験の結果この構造が良好なパフォーマンスを得られた為 FT-TransformerのTransformer層オリジナル論文[1]のTransformer層出典 [1] Attention Is All You Need. [2] Learning Deep Transformer Models for Machine Translation. 17

18.

３. 手法 FT-Transformer ハイパーパラメータ  3層Transformer、192次元、オプティマイザーはAdamW 18

19.

アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 19

20.

４. 実験モデル構造表形式データセット分類先行研究 DL 本論文提案手法 GBDT 決定木系手法略称データセット名概要年 NODE (Popov et al., 2020) CA California Housing 不動産価格 1997 TabNet (Arik and Pfister, 2020) AD Adult 所得推定 1996 AutoInt (Song et al., 2019) HE Helena 視覚的内容属性 2019 GrowNet (Badirli et al., 2020) JA Jannis 視覚的内容属性 2019 SNN (Klambauer et al., 2017) HI Higgs 物理粒子シュミレート 2014 DCN V2 (Wang et al., 2020a) AL ALOI 画像 2005 MLP EP Epsilon 模擬物理実験 - ResNet YE Year 音声の特徴 2011 FT-Transformer ★提案手法本命 CO Covtype 森林の特徴 2000 XGBoost (Chen and Guestrin, 2016) YA Yahoo 検索クエリ 2011 CatBoost (Prokhorenkova et al., 2018) MI Microsoft 検索クエリ 2013 20

21.

４. 実験データセット学習情報数値カラム数カテゴリカルカラム数 21

22.

４. 実験前処理等実施 DL GBDT 内容詳細〇〇回帰問題は目標値を標準化〇 - 数値特徴量に明確な値が少ない特徴量の回避策としてノイズを加える〇〇 Optunaを使ったハイパーパラメータ自動チューニング〇〇アンサンブル学習〇〇プレトレーニング、追加の損失関数、データの増強、蒸留、学習率の減衰など、実施未実施 - 3グループ×各5モデル→各グループの平均値 22

23.

４. 実験結果（DLモデル）  FT-Transformerがほとんどのタスクで最高のパフォーマンス DLモデルの結果一覧 1. MLPは基本的な動作として十分な水準 2. ResNetは効果的なベースライン 3. FT-Transformerはほとんどのタスクで最高のパフォーマンス 4. チューニングはMLPやResNetのような単純なモデルを強力なモデルにする。可能な凡例 ↑：分類問題：Accuracy ↓：回帰問題：RMSE rank：全データセットの順位の平均ランク FT-T：提案手法 FT-Transformer Bold（赤アンダーライン）：ベストスコア（統計的に優位差でない複数の結果を含む）限りベースラインのチューニングがお勧め 23

24.

４. 実験結果（DLモデル vs GBDT）  DLとGBDTにはまだ普遍的な解決策はないデフォルトパラメータ 1. GBDTはアンサンブル込なので、DLもアンサンブル処理後で比較 2. ハイパラチューニングすると一部のデータパラメータチューニング後セットでGBDTが優位に 3. DLとGBDTにはまだ普遍的な解決策はない凡例 ↑：分類問題：Accuracy ↓：回帰問題：RMSE FT-T：提案手法 FT-Transformer Bold（赤アンダーライン）：ベストスコア 24

25.

４. 実験 FT-TransformerがResNetより優れているタスク特性各手法別のテストRMSEのαによる変化 1. GBDTに適したタスクの場合、ResNetは精度が悪化する Good 2. しかし、FT-Transformerは、CatBoost同様精度が向上する 3. FT-Transmormerは、DLもしくはGBDTいずれに適したタスクの場合でも、両方で比較的良い精度である DLに適したタスク GBDTに適したタスク 25

26.

４. 実験アブレーションスタディ類似手法AutoIntとの比較と、特徴バイアスの有無による精度の違い AutoIntとの 1. 【類似】特徴をエンベッティング変換し、その後セルフアテンションしている構造が類似類似点と相違点 2. 【相違】Transformer内部構造と、[CLS]トークンを使わない点、バイアスの有無が相違結果 1. Transformerの内部構造がAutoIntより優れている 2. 特徴バイアスが精度に寄与しており必要性がある 26

27.

４. 実験学習時間学習時間（秒） ※15回実行し平均をとったもの 3.5時間 27

28.

アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 28

29.

５. まとめ結論  表形式DLのベースラインを改善  FT-Transformerを提案。タスク全般的にGBDTと遜色ない  いくつかのタスクではGBDTが依然優位  オープンソースにしている為、表形式DLのさらなる開発の基礎となる事を期待感想  事業で利用する場合は、データには欠損値があり、欠損値に対するロバスト性の研究は、本論文にはない  先行研究のTabNetはマスクし学習しているので、マスクで欠損値処理できそう  本研究もTransformerベースなので、マスクし学習する事で、欠損値処理と表形式プレトレーニングができそう  DLが得意な文章や画像などのデータを繋いだマルチモーダル学習で、GBDTに対する優位性を明らかにしたい 29