推論モデルが示す新たな世界への適応

-- Views

May 07, 26

#reasoning #推論強化モデル #claude mythos

スライド概要

2026-04-27に公開した「推論モデルが示唆する新たな世界」の付属資料。
最近話題になっているAnthropicのClaude Mythosを本稿の視点から解説、など、若干の補足も追加した。

高橋浩

@5451263343

スライド一覧

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文（経営学的視点のもの）をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

生成AIからエージェントAIへの移行の課題と展望

aiエージェントエージェントai 自律性ガバナンスエージェント介入リスク

高橋浩 9.2K

医療分野における大規模言語モデルの調査

医療医療llm 生成ai 医師免許試験デジタル化

高橋浩 5.7K

医療へのChatGPT & AIの適用

chatgpt イノベーションヘルスケア新サービス開発組織変革

高橋浩 5.1K

ChatGPT 機会課題影響

大規模言語モデル chatgpt 生成ai 商業化の壁 llm

高橋浩 5K

GPTは労働市場にどのような影響を与えるか

chatgpt 生成aiツール生産性向上生成aiの今後 llm

高橋浩 4K

価値創造と価値獲得

value creation value capture オープンイノベーションデジタル化 b2b業界価値創造と価値獲得のバランス

高橋浩 3.8K

各ページのテキスト

推論モデルが示す新たな世界への適応 Adaptation to a new world as shown by reasoning model 高橋浩（B-frontier 研究所）要旨：生成 AI で主流となった推論強化モデルは人間にのみ可能であった認知機能を一段と強化させ、 AI による取組みを大きく変化させている。従来、生成 AI は人間を代替するか、人間を強化するかの視点が強調されがちだった。しかし、人間と AI はより高いレベルの連携に向けた設計がポイントになる。但し、この状況を正しく理解し適切に準備することは容易ではない。本稿はこのような認識から急激に高度化する生成 AI がもたらす影響を推論能力強化による変化の視点から探索する。１．はじめに 2024 年 12 月、DeepSeek 社は OpenAI の GPT-4o と直接競合するDeepSeek-V3 を発表した。更に一ケ月後 V3 構造を引き継ぎながら推論機能を強化した DeepSeek-R1 を発表した。V3 は当初から米国からの AI 規制の環境下で、米国製生成 AI に対抗するため、開発に必要なリソースを極力少なくすることで小型化、低廉化を目指した。その策として世界で初めて MoE(Mixture-of-Experts)アーキテクチャを成功させた[1]。これはモデルを幾つかの特定小規模モ品も推論能力向上を謳っており、多少の違いはあるデル（数学用、コーディング用など）に分割し、こもののほぼ拮抗していると考えられる(図 2 参照)。れによって学習負荷を軽減させるもので、オープンソースモデルかクローズドモデルかの違い DeepSeek-V3 は数学やコーディング分野で高性能はあるが、この一年で各社は類似の方向性を追求し、を達成した。一方、DeepSeek-R1 は推論機能強化をかなりの高性能を達成した。その中心は推論機能の計るため、通常は使用する教師あり微調整（SFT）強化にあった。を敢えて使用せず、最初から強化学習(RL)のみで訓このような観察から、以降では、①何故推論機能練することで、推論能力の向上に成功した[2]。このの強化が AI モデルの性能向上に繋がるのか？②こように、DeepSeek は、学習に要した時間の短さやの特性は今後の AI 普及にどのような影響を与える費用の安さが話題になったが、それだけではなく、か？に焦点を当てて論述する。構造的に先進的な部分もあった。これらも世界にインパクトを与えた。要点を図１に示す。この方向性はその後、多かれ少なかれ主要製品に継承されている。2026 年 2 月 Anthropic は Claude-Opus-4.6 を、 Google は Gemini- 3.1Pro を発表した。4 月には DeepSeek も V4 を発表し、その際、これら有力製品との性能比較を発表した（図 2）[3]。発表では V4 を「推論能力で世界最高水準」と主張しているが、他社製

２. 最近の推論強化モデルの研究の核心推論強化モデルの分析に当たり、比較対象である指示調整モデルを規定する。これはデータセットで次のトークンを予測するように学習した後、指示に従い建設的に議論に参加し親切で誠実な対話相手となるように調教される。このプロセスには、厳選されたデータを用いた教師あり微調整や人間のフィードバックに基づいた強化学習(RLHF など)がある。その結果、どのような発言をするかの予測に長けたモデルが完成する。このモデルと推論強化モデルがどのように異なるかを探る精緻な実験が Google 社内の Paradigms of Intelligence (Pi)Team によって実施された[4]。 2 のように定義して測定した。方法：オープンソースとして公開されているモデル ④情報提供を除いて推論強化モデルの方が圧倒の中から 2 タイプモデルを選択して比較する（表 1）的に社会情緒的役割が高かった（図 4）。指示調整モデルは④情報提供では遜色なかった。比較結果３：推論トレース生成時に発生する異なる視点(話者)数の分布を測定した。複雑性など多様な視点の評価は LLM（Gemini-2.5 Pro 使用）によって行なった（図 5）。実施は既存ベンチマークから 8,262 個の課題をサンプリングし、推論トレースを生成して行なわれた。結果：代表的結果を以下に 3 つ示す。比較結果 1：推論トレース長を比較した結果、推論強化モデルの方が圧倒的に長かった（図 3）。推論強化モデルが圧倒的に視点(話者)数が多く、視点(話者)数「3」に緩いピークがあった。一方、指示調整モデルは視点(話者)数「1」に張り付いていた。 AI に「脳内会議」発生を推測：これらの結果を基に研究チームは、AI 内に以下の現象が発生していると総括した。多角的なシミュレーション: 推論強化モデルは、内比較結果２：対話のバリエーションと関係の深い社会情緒的役割を測定するため、社会情緒的役割を表部で異なる専門知識や性格（批判的な検閲官、創造的なアイデアマンなど）を持つ複数のエージェントが対話しているように振る舞っている。対話的行動の発生：内部で「自問自答」「視点の転換」「矛盾の調整」のような会話的プロセスが自然発生しており、これが推論の正確性を支えている。多様性の高さ: 従来の指示調整モデルに比べ、推論強化モデルは内部での意見の対立や多様な視点の切り替えが圧倒的に多い。

3．マルチエージェント討論による推論能力の向上このような推論強化モデルの構造を踏まえ、よりこれらを踏まえ、本節以降では推論強化モデル内機能強化を図るため、「反対意見」を出すエージェンに「自律的にマルチエージェントが発生(AI に「脳トも想定した場合の役割の例を示す。内会議」が発生)」していることを前提に述べる。提案者: 最も確率的に高い解を提示する。実は、指示調整モデル段階でも意図的にエージェ反対者 : 提案の弱点や例外を突き、反論する。ント複数個を用いて類似の研究をしていた先駆的研調整者 : 両者の議論を聞き、矛盾を解消した「統合究があった[5]。実験手順を以下に示す。案」を作成する。 1. 問題が与えられると、意図的に設置された複数これらの知見から、推論強化モデルは、「推論中にエージェントが、個別に回答を生成する。意図的に特定キャラクター(提案者、反対者、など) 2. 次に、各エージェントは他の全てのエージェンを呼び出す(生成する)手法」を駆使していると想定トの回答を読み込み、批判的に検討する。され、従来の単一巨大 LLM にはない、専門的な小 3. このプロセスにより、自身回答の批評と他エー規模専門家エージェントの集合として機能しているジェントの回答を踏まえて回答を見直す。 4. このステップを繰り返す推論の連鎖によって最終回答を生成する。簡単な数学問題に適応した例を図 6 に示す(2 エーと思われる。ここまでの検討結果を踏まえた推定される可能性を以下に示す[6]。 1.「潜在的キャラクター」の顕在化と切り出しジェント(左側)と 3 エージェント(右側)、および繰り可能性のあるキャラクターを推測し、「数学に強い返し回数が 2 回(上段)と 3 回(下段)の実験からなる)。人格」「論理的誤謬を指摘する人格」「創造的な物語を書く人格」などの境界を特定できれば、それらを個別軽量なモデルとして抽出することが可能かもしれない。 2. 内部対話（脳内会議）の外在化内部で行われている「社会」を、物理的に分離された小規模エージェント同士の「外部的な対話」に置き換えることができれば思考プロセスが可視化され、人間によるデバッグや制御が容易になるかもしれない。 3. 動的な専門家編成実験の結果、当初誤りがあっても、推論プロセス入力された問いに対して、「どの専門家を呼びを繰り返すと正解に達していた。指示調整モデルで出すか」を決定する「オーケストレーター」が配も、複数エージェント間で討論を繰返した方が良い置できれば、 1 人の万能な天才に頼るのではなく、結果が得られることが実証された。これは、推論強適切なスキルを持った複数専門家チームを結成化モデル内でマルチエージェントによる討論が発生する仕組みが実現できるかもしれない。していることを強く支持する。これを踏まえた両モこの視点から、2026 年 4 月に Anthropic から発デルの概念図を図 7 に示す。表された Claude Mythos を考える。 Claude Mythos は、「多段階の推論、依存関係の探索、外部システムとの相互作用を必要とする領域において、強いエージェント特性を示し」且つ「重要なシステム(この場合はサイバーセキュリティ)と近接性を持つ」一種の社会システムと考えられる[8]。これは Claude-Opus-4.6(および追加機能)の推論機能を基礎としながら、脆弱性発見アルゴリズム、怪しいパターンの仮説推論、コード走行で異常挙動観測のシミュレーションなどを組合わせた統合システムと考えられ、推論強化モデルの典型例である。

4．今後の取組み指針ここまでの検討を踏まえ、一般企業の AI 活用に態について若干触れる。「確率分布として答えを出す」仕組みは、「ユーザーに、どの程度の粒度（単一の答おける今後の取組み指針について考える[7]。えか、それとも可能性の分布か）で回答を提示すべこれからの AI システムの設計: きか」という UI/UX の議論にもつながる。・「必要な時に、必要なキャラクターだけを、必要な最後に、推論強化モデルは、専門や役割を持った数だけ起動する」という、効率的で説明可能な AI 話者の登場によって、課題についてより優れた回答システムが設計できれば、現在の「計算資源を力を生成する能力を強化できるだけでなく、討論を通技で投入する」アプローチは大きな転換点を迎えじて動的に状況に対応できる点も重要である。このるかもしれない。点が今後の AI に大きな変革をもたらす可能性もあ・「専門家（スペシャリスト）」と「指揮者（ジェネる。更なる研究が期待される。ラリスト）」を分業させることができれば、「疎結合な専門家」と「密結合な基盤」のハイブリッドや「共通の言語・概念空間」を共有したまま、特定のタス参考文献〕〔１〕 Aixin Liu et al., “DeepSeek-V3 Technical ク実行部だけを専門化することも可能かもしれない。 Report”, arXiv preprint arXiv:2412.19437, 今後の AI システムの概念理解： 2024. 次のような視点が考えられる。〔２〕・これまでの AI は「知識ベース」であったが、分 Daya Guo et al., “Deepseek-r1: Incentivizing reasoning capability in llms via 離設計で合意形成可能な AI は「討論ベース」に reinforcement learning”, arXiv preprint なる。 arXiv:2501.12948, 2025. ・その際、「合意形成メカニズム」の実装で最も難し〔３〕 DeepSeek-AI [email protected], いのは「いつ議論を打ち切るか（合意に達したと “ DeepSeek-V4: Towards Highly Efficient みなすか）」である。 Million-Token Context Intelligence”, 2026. ・また、「あえて議論を終わらせない」ことで生まれ〔４〕 Arcas, J Evans, “Reasoning Models Generate る創造性を重視するケースもあり得る。 Societies of Thought”, arXiv preprint ・こうしたことも含めて、「議論の幕引き」の設計を arXiv:2601.10825 2026. 考えるとき、「AI にどの程度の自律性を持たせるか」の設計が重要に成る。〔５〕 Yilun Du et al., “Improving Factuality and Reasoning in Language Models through ・この延長で、単に「正解」に拘るのでなく、議論 Multiagent Debate”, ICML, 2024. というプロセスを経て得られた複数の視点を確率分布として再定義する捉え方もある。 Junsol Kim, S Lai, N Scherrer, B Agüera y 〔６〕・これは、現在の生成 AI モデルの限界（ハルシネ jack4andMana'sTalk, “(論文感想文） Reasoning Models Generate Societies of ーションや過学習）を克服するための合理的手法 Thought”, 2026/1/22, と見做せる面がある。 https://note.com/jack4manastalk/n/neda4834f 指示調整モデルと推論強化モデルの比較を表 3 に e1c1 示す。「確率統計的な枠組み」で回答を生成する知能形〔７〕 James Evans, Benjamin Bratton, Blaise Agüera y Arcas, “Agentic AI and the next intelligence explosion”, Science 391 (6791), eaeg1895, 2026. 〔８〕 Fred Amonya, “The New Narrative Engines: Claude Mythos and the Struggle for Coherence”, SSRN 6594198, 2026.

https://note.com/jack4manastalk/n/neda4834f