Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

>100 Views

June 22, 26

スライド概要

Taki lab.

スライド一覧

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。ご興味をお持ちの方は、HPをご確認ください。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

論文紹介 deeplearning 深層学習人工知能マルチモーダルモダリティギャップ

Taki lab. 8.3K

【人工知能・深層学習】論文紹介：Vision-Language Models Create Cross-Modal Task Representations

deeplearning 論文紹介深層学習人工知能 llm in-context learning task vector vlm

Taki lab. 6.8K

【人工知能・深層学習】論文紹介：Nested Learning: The Illusion of Deep Learning Architectures

deeplearning 論文紹介深層学習人工知能 optimizer llm in-context learning

Taki lab. 2.9K

【人工知能・深層学習】論文紹介：DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

論文紹介 deeplearning 人工知能深層学習 vlm

Taki lab. 2.6K

【人工知能・深層学習】論文紹介：Towards Modular LLMs by Building and Reusing a Library of LoRAs

論文紹介 deeplearning 人工知能深層学習 lora

Taki lab. 2.5K

【人工知能・深層学習】論文紹介：You Only Need Less Attention at Each Stage in Vision Transformers

論文紹介 deeplearning 人工知能深層学習 vision transformer

Taki lab. 2.1K

各ページのテキスト

論文紹介 Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention 2026/06/06 瀧研小林柳青

論文概要タイトル： Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention 著者： Yuzhen Mao, Michael Y. Li, Emily B. Fox 概要： Gist Tokenを用いて長文コンテキストを圧縮し、必要なチャンクのみを選択的に復元することで、計算効率と精度を両立するGist Sparse Attention（GSA）を提案した。 1

既存手法従来のSelf-Attentionは全トークン対の相互作用を計算するため、計算量が 𝑂 𝑛2 に増加し、シーケンスが長くなると計算コストが爆発する。既存の長文処理手法はSparse Attention(重要な部分だけを見る) いつ使う推論時のみ: H2 𝑂, StreamingLLM, Quest 学習時: NSA(Native Sparse Attention),DSA (Differentiable Sparse Attention), MoBA (Mixture of Block Attention) どう使う Compression(圧縮，Gist token): [token 1...N] → [gist1, gist2, gist3, ...] [token 1...16] [gist1] [token 17...32] [gist2] [token 33...48] [gist3] ... 論文の課題 “Why not turn compression into routing: compress first, then selectively unfold the right details?” 2

既存手法 NSAはtokenを圧縮、Qによるtop-kのblockを選択、現在位置の近傍トークンをそのまま保持することを同時に行う欠点：アーキテクチャの改変が必要 DSAは独立したモジュールのindexerによって、 top-kを選択して、アテンションを計算する欠点：外部indexに依存 MoBAはMoEの発想をアテンション機構に応用したものすべてのKVブロックにアテンションするのではなく、各クエリに対して最も関連性の高いブロックだけを選んでアテンションする欠点：Mean Poolingを使うため、End-to-Endの勾配ベース最適化ができない 3

目標 1.クエリ適応的 2. End-to-End学習可能 3.アーキテクチャ改変不要 4

Gist Sparse Attention（GSA）とは Gist tokenは複数のトークンを1つに要約した、学習可能なもの g1はチャンク1の概要、g2はチャンク2の概要… queryがすべてのgist tokenにスコアをつけ、 top-kを選ぶ選ばれたチャンクの元のトークンを gist tokenとともに復元する選ばれたgist+チャンクのペアに対してのみアテンションを計算する 5

Gist token g1 →x1,x2 g2 →g1,x3,x4 g3 →g1,g2,x5,g3 Gist Tokenにより過去の文脈を要約・保持し、 x1,x2などの元のトークンを参照せずにグローバル情報へアクセス可能とする。 MoBAの平均プーリングと比べると、 Gist Tokenは勾配で最適化できる gist causal mask NSAはsummary token生成のために追加MLPが必要で、アテンション構造を変更する GSAは変更不要 6

Selective Unfolding and Hybrid Attention 関連性スコアに基づいて、スコアが最も高い上位k個のチャンクを選択する。選ばれたチャンクの元のトークンをとgist tokenを通常のアテンションを計算する。 7

Training GSAは標準的なTeacher Forcingに基づく自己回帰言語モデルの目的関数で学習される。 x1 x2 g1 x3 x4 g2 x5 [compressed context] prefix x6 x7 x8 [generation context] suffix 圧縮 g1 g2 prefix x5 x6 x7 suffix x8 Stage 1: Continued Pretraining（必要）モデルはコンテキスト情報をGist Tokenに圧縮する能力を学習する。圧縮対象となるコンテキスト（Prefix）にはGist Tokenが一定間隔で挿入され、定義されたGist Causal Maskに従って処理される。一方、 Suffixは元のPrefixトークンを見ることができず、Gist Tokenのみを参照して予測を行う。そのため、モデルは重要な情報をGist Tokenに保存するように学習する。ここまで、gist tokenはすでに学習可能であり、他の推論時のみのスパースアテンション手法と比較して既に大幅な改善をもたらしている。 8

10.

Training Stage 2: Selective Finetuning (選択) 学習中にモデルを選択的展開メカニズムにさらすことで、性能をさらに向上させることができる。 Chunk1 → g1 Chunk2 → g2 Chunk3 → g3 Chunk4 → g4 圧縮 0.1 0.8 0.7 0.2 g1 F g2 T g3 T g4 F Suffix Tokenの Attention(Query, Gist) Top-k k=2 g1 g2 g3 g4 g2 → Chunk2 g3 → Chunk3 Unfold 9

11.

Hierarchical Gist-of-Gist Compression(H-GSA) 本のように、「章 → 段落 → 文」、階層で探す x1 …x100 g1 x101 …x200 g2 x201 … … g1000 … g1000 圧縮 g1 g2 g3 … 圧縮 G1 G2 G3 … G100 10

12.

計算量の比較 •計算量が文章長に対して対数的に増える •理論上、無限の長さにも対応可能チャンクサイズ L が大きいほど削減効果が大きくなりますが、大きすぎると各gist tokenが担う情報量が増えすぎて圧縮の質が落ちるというトレードオフがある。 11

13.

実験実験用モデル 12

14.

実験結果 13

15.

実験結果 14

16.

実験結果 15

17.

Selective Rules Comparison SR-only: 選ばれたchunkのraw tokenのみ（gistなし） AG+SR : 選ばれた＋選ばれなかったchunkのgist tokenをすべて保持 SG+SR : 選ばれたchunkのgist＋ raw tokenのみ SG+SRが一番の理由；固定されたtoken予算の中で、選ばれなかったchunkのgist tokenを除外し、その分選ばれたchunkの生tokenを展開する方が、アテンション文脈がより情報豊かになるからです。また選ばれたchunkのgist tokenも残す理由は、chunk内のtoken間のパターンを捉えた補完的な圧縮情報を提供するためです。 16

18.

Top-k vs. Top-p 固定的なTop-p選択と比較して、Adaptive Top-k選択がすべてのタスクでより高い性能を示した。 17

19.

結論 • GSAは、「忘れて（圧縮）、思い出す（展開）」というシンプルな発想で、構造変更も外部モジュールも非微分操作も不要なまま、長コンテキスト処理の効率と精度を両立したフレームワークである。 • LongBenchとRAGベンチマークにおいて、8×〜32×の圧縮率のもとで既存のgist圧縮手法およびSparse Attention手法を一貫して上回りました。感想優点「一つのgist tokenが圧縮とルーティングを同時に担う」という設計はまるで、人間の記憶のように「要点で覚え、必要なときだけ詳しく思い出す」というエレガントな発想である。それにより、従来は複数の独立したモジュールを必要としていた問題を標準Transformerの枠組みの中に統一し、シンプルさと実用性を両立させた。欠点超長いシーケンスと多様なタスクに関する検証が欠如 18

20.