【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

1.5K Views

December 19, 22

#@deep learning jp #Time Series #Transformers #Forecasting #Patch Division #Channel Independence

スライド概要

2022/12/2
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.1K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 70.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 54.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 51.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 49.9K

各ページのテキスト

A Time Series is Worth 64 Words: Long-term Forecasting with Transformers 岡田領 / Ryo Okada

書誌情報 • ICML2023 Boarerline • 多変量時系列予測と自己教師あり学習のための効果的なTransformer（パッチ分割とチャネル独立） • （タイトルはVITの”An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”より） • 時系列長期予測．評価は高くないが，性能が出ている．

背景と関連研究 • 時系列でのTransformer • Informer, Autoformer, FEDFormer.. • Attentionの複雑性を軽減し，長期予測で性能向上,有効性が示されてきた • Are Transformers Effective for Time Series Forecasting?, 2022.5 Arxiv • 非常に単純な線形モデルがTransformerモデルを超える性能 • 時系列予測におけるTransformerの有用性に疑問を投げかけている • Accepted to AAAI 2023

Are Transformers Effective for Time Series Forecasting? • Itelated multi-step予測（IMS） • １ステップ毎の予測器を学習し，反復してマルチステップの予測に適用 • 長期予測において誤差が蓄積していく欠点 • Direct multi-step 予測（DMS） • 一度にマルチステップ分予測するように学習 • 今までTransformerベースモデルと比較されていた非Transformerベースラインは自己回帰，IMS予測のもの • 単純な線形のDMSモデルを用意して，Transformerベースと比較．

Are Transformers Effective for Time Series Forecasting? • Linear • 単純な１線形層 • NLinear • 分布シフトに対応するため正規化 • DLinear • トレンドや季節性を扱う分解機構を組み合わせたもの

• 線形モデルがTransformerを凌ぐ予測性能

今回紹介する論文の概要 • 本論文ではパッチ分割とチャネル独立によってTransformerの有効性を再度示す • PatchTSTの提案 • 時系列のTransformerで用いられてこなかったパッチ分割 • パッチの塊に分割することで計算量が分割分削減される • 入力系列が短くなるので長期の履歴も参照しやすくなる • パッチをマスクすることで自己教師あり学習にも効果 • （多変量時系列を分割して）単時系列でTransformerに入力する • 単時系列にすることでアテンションマップの柔軟性が上がる（系列ごと個別にパターン化できる） • 複雑性が落ちるので，学習が容易になる（少ないデータで収束）

提案手法モデル構造・教師あり設定 • 多変量時系列の次元（チャネル）を分割 • チャネル毎独立にTransformer（バニラ）に入力． • パッチの長さP，ストライドSでパッチN個に分割 • MSE lossで訓練

提案手法表現学習（自己教師あり学習）設定 • 教師あり設定と同じTransformerエンコーダ（予測ヘッドだけ変更） • パッチをランダムでマスク • 非重複にパッチ分割（マスク箇所の情報が他で含まれないように） • マスクされたパッチを再構成するためにMSE lossで訓練

10.

実験 • 多変量の時系列予測の評価 • ベースライン • SOTAトランスフォーマーベースモデル • FEDformer, Autoformer, Informer, Pyraformer, LogTrans • 非トランスフォーマー • DLinear • MSEとMAEで評価

11.

実験結果多変量長期予測 • 多変量の長期予測 • 提案手法は全てのtransfomerベースモデルのベースラインを凌駕 • 大規模データセット（Weather 、Traffic、Electricity）やILIデータセットにおいてDLinearモデルより優れた性能

12.

実験 • 表現学習の設定 • 自己教師あり事前学習を100エポック学習 • その後，２つのパターンで教師あり学習（それぞれ評価） • Linear Probing：モデルヘッドのみ20エポック学習 • End2end fine tuning： • モデルヘッドを10エポック更新 • ネットワーク全体を20エポック学習

13.

実験結果教師あり学習との比較 • Linear Probingだけで教師ありと同等 • End2Endでのファインチューニングでは全てで最も良い結果 • Open ReviewでS4との比較も追加されている（S4よりも優れた性能）

14.

実験結果転移学習 • Electricityデータセットで事前学習→別データセットでfine tuning • 教師ありには勝てないケースもあるが，他のベースラインよりは優れている

15.

実験結果自己教師あり学習手法との比較 • 他の自己教師あり学習手法との比較 • Transferred列：Trafficデータセットで事前学習 • Self supervised列：ETTh1で事前学習

16.

Ablation Study • パッチとチャネル独立性の有効性

17.

Ablation Study • Windowサイズを大きくすると性能が向上する

18.

まとめ • 多変量時系列予測と自己教師あり学習のための効果的なTransformer（Patch TST） • 時系列のパッチ分割 • チャネル独立に予測 • 表現学習の時はパッチをマスクして予測 • 長期予測で既存のベースラインより優れた性能 • 表現学習，転移学習の有効性も示した． • シンプル．結果はよい．チャネル独立がデータセットの性質によって本当に汎用性があるのかが気になる．

19.

Appendix（Open Reviewの指摘）チャネル独立の有用性 • 適応性 • チャネル混合型は多くの学習データを必要とする • チャネル独立はオーバーフィットしづらい

20.

• チャネル混合型の場合は全ての系列に対して共通のアテンションを持つことになるが，チャネル独立の場合は各時系列に対して異なるアテンションマップを持つ • 共通なものもあれば，異なるものもある（適応性が高い）

21.

• チャネル独立の方が早く収束 • チャネルミキシングはオーバーフィッティングしている