【DL輪読会】Between Circuits and Chomsky: Pre- pretraining on Formal Languages Imparts Linguistic Biases

464 Views

September 25, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases Presenter: Masaki Sashida, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • 論文名 – Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases (2025) • 著者 – Michael Y. Hu, Jackson Petty, Chuan Shi, William Merrill, Tal Linzen • 発表学会 – ACL2025 Outstanding Papers • リンク – https://arxiv.org/abs/2502.19249v2 2

3.

概要 大規模言語モデル(LLM)は大量の自然言語で学習されるが、効率的に「言語らし い一般化能力」を獲得させる方法は未解明である。 本研究では、自然言語に入る前に「人工的に設計されたルール性のある言語」で 訓練を行う pre-pretraining を導入し、その効果を調べた。ここで使う人工言語は、 たとえば 文脈自由文法(Context-Free Grammar, CFG) で生成できるような言語。 「形式言語(特に階層依存をもつ言語)で pre-pretraining を行うだけで、自然言 語学習時に必要なトークン数を削減しつつ、構文的一般化能力が向上する」 • • • • 単なるランダム文字列やコピー列では効果がない 階層的ルールを持つ言語 では自然言語学習の性能が大きく改善 自然言語の学習に必要なデータ量を 約3割削減 しても同等性能を維持 内部解析で、形式言語で形成されたアテンションヘッドが 自然言語の構文処理に 再利用 されていることを確認 • 統計的に似せただけのデータでは効果が消失 → 構造学習が本質 • 小型〜中型モデル(1Bパラメータ級)でも再現性あり 3

4.

研究の課題意識・目的 1. LLMの現状 – – – 高性能だが、とにかく大量のデータを必要とする 人間の習得と比べると、5〜6桁多いデータ量[1] 自然言語の学習データは有限 → 今後は枯渇・限界が来る[2] 2. なぜ問題か – – – データ効率が悪いと訓練コスト(計算資源・時間)が莫大[3] 低リソース言語では十分に学習できない モデルの改良がデータ依存になり、行き詰まりやすい 3. 解決に向けた問い – データをそのまま増やすのではなく、→ 「少ないデータで効率よく学ばせる方法はな いか?」 4. 本研究のアイデア – 自然言語を学習する前に、もっとシンプルで構造が明確な「形式言語」でモデルを 学習してみる(“pre-pretraining”を行う)。そうすることで「構文的なバイアス」 が先に身につき、自然言語の学習が効率化できるのでは? 4

5.

形式言語とは • 形式言語とは、「あるルールに従って作られた文字列の集合」のこと • この論文では、人工的に設計された形式言語で文字列データを作り、それをLLM の事前学習に使っている • 自然言語も同じ発想で捉えられる。実際の英語や日本語も「文は名詞句+動詞句 からなる」など、文法規則の集合として記述できる (例)「a を n 個並べたあとに、b を n 個並べる」形式言語 – 受理される(生成される)文字列 • ab, aabb.. – 受理されない(生成されない)文字列 • aab, ba.. 出典[4] 5

6.

実験設定 • 手法 形式言語データ(詳細は次ページで解説)でモデルを事前学 習。その後、自然言語データ(C4)で学習 • モデル:Pythia 410M, Pythia-1B • 形式言語 – – – – Dyck 言語:括弧の対応が正しい文字列 Shuffle Dyck 言語:複数種類の括弧が交差する構造も許容 Copy 言語:前半と後半が一致する文字列(例:abcabc) ランダム列:構造を持たない文字列 • 評価指標 – C4 validation loss – 文法性判断タスク(BLiMP:正しい文 vs 誤った文の尤度比較) – verbatim retrieval(文中の繰り返し部分を正しく予測できるか) 6

7.

実験設定ー形式言語(k-Dyck)の生成ー • K-Dyckの例: ([{}])、[(){}] • トークンの準備 – k種類の括弧ペア(例:丸括弧、角括弧、波括弧…)を用意する – 1ペア = 「開き」「閉じ」の2つで構成 – 合計128種類のトークン(64種の開き+64種の閉じ) • 生成手法 1. 最初は必ず「開き括弧」で始める。 • 64種類の中からランダムに選ぶ。 2. その後は次の2つをランダムに選択する(確率 1/2 ずつ): • 開き括弧を出す:種類をランダムに選んで追加。 • 閉じ括弧を出す:直前までに開いて閉じていない括弧を閉じる。 3. これを繰り返すことで「正しく入れ子になった括弧列」ができる。 • 閉じるときは必ず「対応する種類の括弧」で閉じる。 • 制約 – 最大長は 2048 トークンまで。 – もし途中で 2048 に達したら、それ以上は生成しない。 – 最後に未閉じの括弧が残っていれば、自動的に対応する閉じ括弧を足して整形式にする 7

8.

実験結果① K-Shuffle Dyck で pre-pretraining すると、自然言語だけで学習するより 損失が速く下がる33% 少ないトークン数でも同等性能に到達 縦軸:C4 validation loss、横軸: ”pre-pretraining含めたトークン数” 8

9.

実験結果② “pre-pretraining”のトークン量は増やせばよいわけではない 縦軸:C4 validation loss 9

10.

実験結果③ • k-Shuffle Dyck が最良、k-Dyckが次点 • 4つの形式言語すべてで文法性(BLiMP)は改善 10

11.

実験結果④ • (青)n-gram メタマー(局所統計だけ一致)で pre-pretraining しても 本家 kShuffle Dyck より効果が低い → 転移はローカル統計でなく構造由来 • (紫)語彙サイズの最適値が存在する(k-Shuffle Dyck のハイパラ) 11

12.

まとめ・感想① まとめ:構造を持つ形式言語で pre-pretraining を行うことで、LLMのデータ効率と 文法的一般化(blimpベンチマーク)が大幅に改善 良い点 • 動機が分かりやすく、また、実験設定がシンプル・丁寧 • 先行研究では、文法などの事前知識を入れても性能が上がらなかったが[5, 6, 7]、 本研究では、学習データの削減・ベンチマーク向上というメリットを出している 限界 • ハイパラ(pre-pretrainingのトークン量・語彙数)が重要であり、その調整を巨大 モデルで行えるのか不明 • 英語以外の言語で通用するか未検証(日本語では語句のスクランブリングが発生) • 効率改善効果(33%)が、もともとの動機(LLMの学習データ量は人間と比較して 5-6桁程度大きい)と比較して小さい 12

13.

感想② 疑問が残った点 • なぜDyckよりもShuffle Dyckの方が効果が高いのか – 論文では「 Shuffle Dyckの方が表現力が高いため」と考察 – 自然言語では交差構造はあまり出現しない – ドイツ語の動詞句等で見られるものの、一般的ではない • Pre-pretrainingで何を学んでいるのか その他 • 1-Dyckによるpre-pretrainingでも効果があるのは面白い • Pre-pretrainingより良いやり方(損失関数に組み入れる 等)がありそう 13

14.

参考文献 1. 2. 3. 4. 5. 6. 7. Hu, Petty, Shi, Merrill, Linzen (2025). Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases. Villalobos, Ho, Sevilla, Besiroglu, Heim, Hobbhahn (2022/2024). Will we run out of data? Limits of LLM scaling based on human-generated data. Hoffmann et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). https://qiita.com/mantis522/items/f727cecd4af656d26494 Chen, A., Shwartz-Ziv, R., Cho, K., Leavitt, M. L., & Saphra, N. (2023). Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs. arXiv preprint arXiv:2309.07311. Prange, J., Shah, S., Mahowald, K., & Wilcox, E. (2023). How much semantic supervision is needed? Evaluating the lower bounds of semantic structure in language models. Proceedings of the 12th Joint Conference on Lexical and Computational Semantics (STARSEM), 1–15. Association for Computational Linguistics. Chen, A., Shwartz-Ziv, R., Cho, K., Leavitt, M. L., & Saphra, N. (2023). Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs . arXiv preprint arXiv:2309.07311. 14