複合的なAI システムと DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

6.6K Views

March 15, 24

#AIシステム #大規模言語モデル #LLM #DSPy #プロンプトエンジニアリング

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

複合的なAIシステムと DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines 岡田領 / Ryo Okada

書誌情報 LLMに関わる２つの文書から抜粋して紹介 https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/ 2024/2/18 blog post arXiv, Oct 2023 ※関連でアサーション周りの論文もある DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines, arXiv Dec 2023 • • LLMのシステム化全般の話を見る中で，DSPyについて言及されており，興味を持った． LLMを実活用する際に大きな課題となるプロンプティングなどの課題に対する，１つ考え方として答えを出している 2

https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/

背景複合的なAIシステムの必要性 • 最先端のAIシステムは単一のAIではなく，複合的なAIのコンポーネントによって構成されている • ChatGPT Plus ‒ LLM，ウェブ検索，コードインタプリター，DALL-E • RAGシステム ‒ • なぜ複合的なAIシステムが必要なのか？ 1. 2. モデルは静的なデータで訓練されているため，動的なシステムの場合は組み合わせが必要 LLMのサンプリング・スコアリング，コード実行，クラスタリング目的によってはモデルを単一のモデルをスケールするよりも組み合わせの方がコスパが良い LLM，Retrieval AlphaCode2 ‒ • 3. モデルはコントロールしづらい（特定の挙動をしないようにするのは難しい）ので，外部でフィルタリングなど必要 4. など 3

複合的なAIシステムの課題単純なAIモデルと比較した新たな課題 • 設計面 ‒ 探索範囲が膨大．単純なRAGの場合でも：①多様なretrieval, 言語モデルの選択肢，②多様なretrievalの改善手法（クエリ改善，reranking..），③LLMの生成結果の改善手法（他のLLMにチェックさせたり），… • 最適化 ‒ 各コンポーネントがうまく協業するような最適化が必要．単純なRAGの場合：retriever へのクエリの生成や回答の生成など • 運用面 ‒ LLMエージェントの性能をどのように追跡し，デバッグするか？ ‒ ロギング，データ管理，セキュリティなど 4

新たなパラダイム前述の課題に関わる昨今の技術潮流 • AIシステムデザイン（組み合わせや戦略） ‒ • 言語モデルプログラミングフレームワーク：LangChain, LlamaIndex, AutoGPT, Guardrails, … 品質の自動最適化 ‒ 任意のメトリクスを最大化するためにLLMなどで構成されるシステムを最適化をするフレームワーク: DSPy • コストの最適化 ‒ • LLMの推論コストを大幅に削減: FrugalGPT 運用面（LLMOpsとDataOps） ‒ モデルのアウトプットとデータパイプラインのモニタリング（追跡，可視化，評価） : LangSmith, Phoenix Traces, Databricks Inference Tablesなど 5

DSPyとは？ DSPy: Programming—not prompting—Foundation Models （プロンプトエンジニアリングではなく，基盤モデルをプログラミングする） • LLMはプロンプト調整が大変．更にそれをシステム化すると，最適な結果を出すためにはモデルやパイプライン，データを変更する度にプロンプトを調整しなければいけない． • メトリクスを設定し，良い感じのプロンプト調整を自動で調整できないか？ • DSPy：言語モデルのプロンプトや重みをアルゴリズムで最適化するフレームワーク ‒ OSSとして公開 ‒ Pytorchに影響受けており，pytorchのモデル構築ライクのdefine-by-runに扱える 6

DSPyの主要要素３つの要素でプロンプトエンジニアリングから脱却，より全体的な戦略に焦点を当てることが可能に • • • シグネチャー ‒ プロンプトを抽象化 ‒ Ex. “question -> answer”, “long_document -> summary”, … モジュール ‒ プロンプトテクニックを一般化 ‒ Ex. dspy.ChainOfThought, dspy.ReAct, … DSPyオプティマイザー（旧名称テレプロンプター） ‒ プログラム，データ，メトリクスを受け取り，メトリクスに対する最適化を行う ‒ Ex. LabeledFewShot, BootstrapFewShot, …

DSPyの主要要素３つの要素でプロンプトエンジニアリングから脱却，より全体的な戦略に焦点を当てることが可能に • • • シグネチャー ‒ プロンプトを抽象化 ‒ Ex. “question -> answer”, “long_document -> summary”, … Pytorchで言うと… モジュールの入出力定義・次元数などモジュール ‒ プロンプトテクニックを一般化 ‒ Ex. dspy.ChainOfThought, dspy.ReAct, … 学習可能なNNの層（ex. 畳み込み層） DSPyオプティマイザー（旧名称テレプロンプター） ‒ 最適化アルゴリズムプログラム，データ，メトリクスを受け取り，メトリクスに対する最適化を行う Ex. SGD, Adam ‒ Ex. LabeledFewShot, BootstrapFewShot, …

DSPyを使ったプログラム例シグネチャ：入力の意図（質問→回答）として利用することを指定モジュール： Chain of Thoughtのプロンプト手法を利用 DSPy オプティマイザ： FewShot例をブーストするように指定メトリクスを指定コンパイルにて最適化を実施（プログラムとラベル付きのデモデータを渡す）

10.

DSPyコンパイラ DSPyによって書かれたプログラムをメトリクスに基づき最適化する • DSPyオプティマイザーを使って，プログラムのパラメータ（プロンプトなど）をチューニングし，指定されたメトリクスを最大化する ‒ ①候補の生成：内部のモジュールを探索し，モジュールのパラメータ（入出力のペアのデモなど）を生成 ✔ コンパイル対象のプログラムのゼロショット版（もしくは与えた教師プログラム）でシミュレートし，良い例をデモとして採用 • ‒ ②パラメータ最適化：メトリクスを最大化する候補を選択する ‒ ③パイプライン最適化：アンサンブルなどより高次の処理を行う ‒ ※メトリクスは例えばexact matchやF1スコアなどが用いられる DSPyオプティマイザーの例： ‒ LabeledFewShot: 与えられたラベル付きペアからfewshotの例を構築 ‒ BootstrapFewShot: プログラムに沿ってfewshotのデモを生成 ‒ BootstrapFinetune: ファインチューン用も ‒ ．．．

11.

ケーススタディ１（数学問題） GSM8Kデータセット（数学問題）で比較（全てDSPyの実装） • １ステップの推論（Predictモジュール） • ChainOfThought • Reflection（ChainOfThought からの複数の出力を比較して、最終的な予測を生成） • で比較（※数学の知識に特化させるような工夫はなし

12.

ケーススタディ１（数学の問題）結果 • Noneに対し，モジュールの組み合わせで改善（4~20%→49~88%） • ※プロンプトエンジニアリングなどはなしで，モジュールを組み合わせるだけで改善幅大きいとのこと

13.

14.

ケーススタディ２ HotPotQAデータセット（複雑なQA問題）での場合 • モジュールを組み合わせることで改善

15.

16.

LangChainやLlama-Indexとの違い • LangChainやLlama-indexはパッケージ化されたコンポーネント，チェーン，パイプライン，ツールを提供しており，内部には手作業で作った固定のプロンプトが用いられている．（DSPyが解決しようとしているプロンプトの問題を内部的に包括している） • DSPyはプロンプトエンジニアリングの課題を解決しようとしているものであり，上記とは焦点が異なる

17.

まとめ • LLMにおける大きな課題であるプロンプトの問題を解消する考え方 • （LLMを使っているのにプロンプトを書かない感覚は使ってみても新しい） • 一発LLMで生成させたいモチベーションよりも，継続的にデモを蓄積して改善させていきたいようなシステム化の文脈で効果が大きいと感じた ‒ モデルのバージョンアップや変更にも柔軟に対応できそう

18.

Thank you.