292 Views
September 25, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP ”Deep Researcher with Test-Time Diffusion” [DL Papers] Kensuke Wakasugi, Panasonic Holdings Corporation. http://deeplearning.jp/ 1
書誌情報 ◼タイトル: Deep Researcher with Test-Time Diffusion ◼著者: Rujun Han*1, Yanfei Chen*1, Zoey CuiZhu2, Lesly Miculicich1, Guan Sun2, Yuanjun Bi2, Weiming Wen2, Hui Wan2, Chunfeng Wen2, Solène Maître2, George Lee1, Vishy Tirumalashetty2, Emily Xue2, Zizhao Zhang2, Salem Haykal2, Burak Gokturk1, Tomas Pfister1 and Chen-Yu Lee1 ◼所属:1 Google Cloud AI Research, 2 Google Cloud ◼出典:arxiv、25/07/21 [2507.16075] Deep Researcher with Test-Time Diffusion ◼選書理由 • LLMの発展に伴い、業務上でも大規模文書の処理技術が求められるように • Deep Researcherの動作原理に興味 特に記載がない限り、本資料の図表は上記論文からの引用です 2
Deep Researcher LLM・RAGをベースに、大量の情報を検索・集約し、高品質の報告書を生成 • 人間の行う文書作成ステップを模倣した仕組みを構築 計画 → 素案 → 調査 → 編集 → 最終稿 3
背景 人間の文章作成方法に倣った生成手法を提案 • 人間が文章を作成する場合、完成文章の頭から順に生成しない(Chitwood, 2022) • ドラフトから始めて徐々に文章推敲し、完成度を高めていく(Flower and Hayes, 1981) • 文章推敲の際、文献調査を行い情報を肉付けしていく(Catalano, 2013). 上記と、拡散モデルの類似性に着目し、人間の文章推敲過程を模したTest-Time Diffusion (TTD)を提案 1. クエリからドラフトと調査計画を策定 2. 調査計画を元に、検索問を生成し、その回答を取得 3. 回答を元に、ドラフトをデノイズ 4. 2-3を繰り返す 5. 報告書を出力 4
提案手法のポイント 人間の文章作成に関する認知科学的知見をもとに手法を構築 (a) Denoising with Retrieval (Zhang et al., 2023) – 情報検索で拡充しながら、文書を更新 (b) Self-Evolution (Lee et al., 2025; Novikov et al., 2025) – 計画、検索問、調査回答、報告書生成のユニットごとに、 情報の多様性向上と損失低減のための最適化ステップを導入 いずれも新規のアイディアではないが、 人間の認知科学的に観察された行動を参考に、 上記二つをモデル化した手法は、これまでなかったとのこと。 5
関連研究 学習済みLLMを用いて、出力を改善する • Chain-of-Thought (CoT) (Wei et al., 2022) 思考過程を出力文章に含めることで正答率を改善 • best-of-n sampling(Ichihara et al.,2025) N個の出力を生成し、その中から最も好ましい出力を選択 • Monte Carlo Tree Search (Świechowski et al.,2022) モンテカルロ木探索 • debate mechanisms (Liang et al., 2023) マルチエージェントで討論 • self-refinement loops (Madaan et al., 2023) 反復的な自己改善 TTD-DRにも同様の仕組みが内包 6
関連研究 TTD-DRでは、Draftを軸にデノイズを行う 7
Backbone Deep Research Agent 大きく計画・調査・統合のステップで実施 基づき、調査・解析を繰り返し実施 Stage 1: Research Plan Generation クエリから調査計画を策定 Stage 2: Iterative Search and Synthesis 調査計画に基づき、調査・解析を繰り返し実施。二回目以降は過去調査も参考に。 RAGはGoogle search等(ブラウジング、コーディングは今後) Stage 3: Final Report Generation 一連のすべての情報を利用して、最終レポートを出力 8
Component-wise Self-Evolution Environmentの評価を受けながら、各文章を修正 1. Initial States. 2. Environmental Feedback. 3. Revision Step. 4. Cross-over. 直前の情報を元にさまざまなバリエーションを生成(temperature, top_kを変える) 。 網羅性を上げ有用な情報を得る LLM-as-a-judge(後述)によるスコアと修正に向けたアドバイス FBをもとに修正。2-3繰り返し。 すべてのパスの情報を入力に、単一出力にマージ。 9
Component-wise Self-Evolution 以下のプロンプトで答えをマージ 10
Report-level Denoising with Retrieval RAGのQAを収集しながら、ドラフトを徐々に更新 • いわゆる拡散モデルではない(ノイズのないデータにノイズ加え、その復元方法を学習とかはしていない) • RAGのQAを収集しながら、クエリqとQAを元に、ドラフトRを更新する • デノイズの方向付けは、プロンプトで行う 11
提案手法全体像再掲 調査計画とRAGのQAに基づき、ドラフトを徐々に更新 12
データ 多様なジャンルの調査タスクで検証 • • • • LongForm Research DeepConsult (Lim et al., 2025) Humanity’s Last Exam (HLE) (Phan et al., 2025) GAIA (Mialon et al., 2023) 13
Deepconsult クエリとに対する応答を、OpenAI DRと比較 クエリ: Evaluate the potential consequences of TikTok bans on investment risks and analyze how companies can strategically navigate these challenges. Consider how varying degrees of restrictions might impact business operations and explore adaptive measures to mitigate associated risks. TikTokの利用禁止措置の投資リスクについて GitHub - Su-Sea/ydc-deep-research-evals: you.com's framework for evaluating deep research systems. 上記リンクのデータを手元で表示 14
Humanity‘s Last Exam 研究者らから募集した問のデータセット Humanity‘s Last Exam サンプル Humanity‘s Last Exam 賞金付きで収集された高難度データセット 引用元:https://lastexam.ai/ ※Web検索で簡単に見つかる質問は 削除されているとのこと 引用元:https://lastexam.ai/ 15
GAIA 現実世界に関する問のデータセット 引用元:arxiv.org/pdf/2311.12983 16
Evaluation Metrics 長文に対する評価指標を定義、LLMで評価 詳細な定義 • Helpfulness: 1. ユーザーの意図を満たしているか 2. 理解しやすいか 3. 正確か 4. 適切な言葉遣い • Comprehensiveness: • キー情報の欠落 17
Evaluation Metrics 各項目に関して5段階評価し、最終的に優劣を7段階で評価 • Side-by-side quality comparison: Helpfulness、Comprehensivenessの観点で二文書を比較 18
LLM-as-a-judge Calibration 長文評価のためLLMによる判定を利用。人との精度比較の結果v1.5を採用 • 学習済みLLMを各種評価値の算出に利用 • ただし、200文書で、OpenAI Deep Researchと著者らの生成文書を比較し、 人間の評価結果に近いものを採用 ※Correlation=0.22がよいのかどうかは不明 19
Evaluation Metrics 定型回答の場合は、そのまま正解率を評価 • Correctness: Humanity‘s Last Examで使用。 Humanity‘s Last Exam サンプル 選択肢回答などの精度を評価 https://lastexam.ai/ 20
計算環境・条件 self-evolution stepsの設定については、理由がわからず • Google Agent Development Kit (ADK) • 最大デノイジングステップ=20 • RAGでGoogle searchを利用 ■self-evolution設定 ※self-evolution stepsがほとんど0、1。 良いのか? 21
性能比較 各種Researchサービスと比較 • OpenAIを基準として唯一勝ち越し • self-evolutionとTTDが効果的に、Winrateを向上 22
性能比較 Helpfulness/Comprehensivenessの観点で各種サービスを凌駕 • Helpfulness/Comprehensivenessの観点で、 各種サービスを凌駕 23
ablation study self-evolution/Dffusion双方ともにWin-rateを大幅改善 • 単なるLLM+RAGではあまり精度向上せず • 長文生成において、self-evolutionの恩恵が大きい 24
その他解析 self-evolutionは情報量増加に貢献 • self-evolutionによって Key Pointsの数が増加 25
その他解析 デノイズステップによって、早期に情報量が拡大 26
性能比較再掲 各種Researchサービスと比較 • OpenAIを基準として唯一勝ち越し • self-evolutionとTTDが効果的に、Winrateを向上 27
総括・今後の展望・所感 ■総括 • 人間の認知科学的に観察された行動に着想を得て Denoising with RetrievalとSelf-Evolutionを効果的に組み合わせた手法を提案 • 既存のLLM Researchサービスと比較して優位な結果を得た ■今後の展望 • エージェントの学習やブラウジング、コーディングとの連携 ■所感 • 出力が長大になったことで、定量評価が難しく、いたるところでLLMを利用するように 仕方ない部分もあるが、何を信用すべきか判断が難しい ※商用サービスであれば最終的なお客さんの反応で評価はできるが 28