【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

140 Views

December 19, 22

スライド概要

2022/12/2
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

A Time Series is Worth 64 Words: Long-term Forecasting with Transformers 岡田 領 / Ryo Okada

2.

書誌情報 • ICML2023 Boarerline • 多変量時系列予測と自己教師あり学習のための効果的なTransformer(パッチ分割とチャネ ル独立) • (タイトルはVITの”An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”より) • 時系列長期予測.評価は高くないが,性能が出ている.

3.

背景と関連研究 • 時系列でのTransformer • Informer, Autoformer, FEDFormer.. • Attentionの複雑性を軽減し,長期予測で性能向上,有効性が示されてきた • Are Transformers Effective for Time Series Forecasting?, 2022.5 Arxiv • 非常に単純な線形モデルがTransformerモデルを超える性能 • 時系列予測におけるTransformerの有用性に疑問を投げかけている • Accepted to AAAI 2023

4.

Are Transformers Effective for Time Series Forecasting? • Itelated multi-step予測(IMS) • 1ステップ毎の予測器を学習し,反復してマルチステップの予測に適用 • 長期予測において誤差が蓄積していく欠点 • Direct multi-step 予測(DMS) • 一度にマルチステップ分予測するように学習 • 今までTransformerベースモデルと比較されていた非Transformerベースライン は自己回帰,IMS予測のもの • 単純な線形のDMSモデルを用意して,Transformerベースと比較.

5.

Are Transformers Effective for Time Series Forecasting? • Linear • 単純な1線形層 • NLinear • 分布シフトに対応するため正規化 • DLinear • トレンドや季節性を扱う分解機構 を組み合わせたもの

6.

• 線形モデルがTransformerを凌ぐ予測性能

7.

今回紹介する論文の概要 • 本論文ではパッチ分割とチャネル独立によってTransformerの有効性を再度示す • PatchTSTの提案 • 時系列のTransformerで用いられてこなかったパッチ分割 • パッチの塊に分割することで計算量が分割分削減される • 入力系列が短くなるので長期の履歴も参照しやすくなる • パッチをマスクすることで自己教師あり学習にも効果 • (多変量時系列を分割して)単時系列でTransformerに入力する • 単時系列にすることでアテンションマップの柔軟性が上がる(系列ごと個別に パターン化できる) • 複雑性が落ちるので,学習が容易になる(少ないデータで収束)

8.

提案手法 モデル構造・教師あり設定 • 多変量時系列の次元(チャネル)を 分割 • チャネル毎独立にTransformer(バニ ラ)に入力. • パッチの長さP,ストライドSでパッ チN個に分割 • MSE lossで訓練

9.

提案手法 表現学習(自己教師あり学習)設定 • 教師あり設定と同じTransformerエン コーダ(予測ヘッドだけ変更) • パッチをランダムでマスク • 非重複にパッチ分割(マスク箇所の 情報が他で含まれないように) • マスクされたパッチを再構成するた めにMSE lossで訓練

10.

実験 • 多変量の時系列予測の評価 • ベースライン • SOTAトランスフォーマーベースモデル • FEDformer, Autoformer, Informer, Pyraformer, LogTrans • 非トランスフォーマー • DLinear • MSEとMAEで評価

11.

実験結果 多変量長期予測 • 多変量の長期予測 • 提案手法は全てのtransfomerベ ースモデルのベースラインを 凌駕 • 大規模データセット(Weather 、Traffic、Electricity)やILIデー タセットにおいてDLinearモデ ルより優れた性能

12.

実験 • 表現学習の設定 • 自己教師あり事前学習を100エポック学習 • その後,2つのパターンで教師あり学習(それぞれ評価) • Linear Probing:モデルヘッドのみ20エポック学習 • End2end fine tuning: • モデルヘッドを10エポック更新 • ネットワーク全体を20エポック学習

13.

実験結果 教師あり学習との比較 • Linear Probingだけで教師ありと同等 • End2Endでのファインチューニングでは全てで最も良い結果 • Open ReviewでS4との比較も追加されている(S4よりも優れた性能)

14.

実験結果 転移学習 • Electricityデータセットで事前学習→別データセットでfine tuning • 教師ありには勝てないケースもあるが,他のベースラインよりは優れている

15.

実験結果 自己教師あり学習手法との比較 • 他の自己教師あり学習手法との比較 • Transferred列:Trafficデータセットで事前学習 • Self supervised列:ETTh1で事前学習

16.

Ablation Study • パッチとチャネル独立性の有効性

17.

Ablation Study • Windowサイズを大きくすると性能が向上する

18.

まとめ • 多変量時系列予測と自己教師あり学習のための効果的なTransformer(Patch TST) • 時系列のパッチ分割 • チャネル独立に予測 • 表現学習の時はパッチをマスクして予測 • 長期予測で既存のベースラインより優れた性能 • 表現学習,転移学習の有効性も示した. • シンプル.結果はよい.チャネル独立がデータセットの性質によって本当に 汎用性があるのかが気になる.

19.

Appendix(Open Reviewの指摘) チャネル独立の有用性 • 適応性 • チャネル混合型は多くの学習データを必要とする • チャネル独立はオーバーフィットしづらい

20.

• チャネル混合型の場合は全ての系列に対 して共通のアテンションを持つことにな るが,チャネル独立の場合は各時系列に 対して異なるアテンションマップを持つ • 共通なものもあれば,異なるものもある (適応性が高い)

21.

• チャネル独立の方が早く収束 • チャネルミキシングはオーバーフィッティングしている