【DL輪読会】Self-Adapting Language Models(SEAL)

>100 Views

February 05, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Self-Adapting Language Models(SEAL) Ryohei Yasuda, IBM Systems Engineering 1

2.

書誌情報 • Self-Adapting Language Model (2025) • 著者 – ZhengyanShi1,Adam X. Yang, Bin Wu, Laurence Aitchison, Emine Yilmaz, Aldo Lipani – Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim, Pulkit Agrawal • https://arxiv.org/pdf/2506.10943 2

3.

この論文を選んだ理由 • モデルの自動学習・自己適応というテーマに関心があり、 継続的に性能を改善する枠組みに興味を持っていた。 • 過去に InstructLab を業務で扱った経験から、「人手に依らないモデル 改善」の方向性に問題意識があった。 • 本論文では、モデル自身が「どのように学習し直すと性能が向上する か」を強化学習により最適化しながら自己適応する枠組みを提案して おり、研究的にも実用的にも示唆が大きいと考えた。 3

4.

論文概要 4

5.

人間の学習とのアナロジー 5

6.

研究背景と問題設定 6

7.

関連研究1: Synthetic Data Generation Self-Instruct: Aligning Language Models with Self-Generated Instructions Yizhong Wang et al. ACL 2023(Self-Instruct) Better Synthetic Data by Retrieving and Transforming Existing Datasets Saumya Gandhi et al. Findings of ACL 2024(Better Synthetic Data) 7

8.

関連研究2:Meta Learning Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks (MAML) Finn et al. ICML 2017(MAML) Learning Task-Specific Weight Modulation via Reinforcement Learning Sun et al. ICLR 2024(Sun et al., Hu et al.) 8

9.

関連研究との違い 9

10.

そもそも 10

11.

提案手法の詳細 11

12.

SEALの構造 12

13.

ReSTEM: self editポリシーの最適化 13

14.

実験①:知識組み込み 14

15.

実験設定 15

16.

Self-editの例 16

17.

実験結果 17

18.

継続事前学習結果 18

19.

実験②:Few Shot 学習 19

20.

実験設定 20

21.

実験結果 21

22.

限界と課題 22