-- Views
March 12, 26
スライド概要
20260311 https://seb-sapporo.connpass.com/event/384654/
での前座登壇です。
エージェント開発の個人的なプロセス整理です。プロセスにおいて3つのループにエージェント開発を分類する中で、最新のモデルによってかなりの作業を委譲できるようになった中での、継続的な評価や評価のためのエンジニアリングがエンジニアリングとしては比重が重くなっていってるという自分の体験を整理したものです。
掲載にあたり、「エージェントに何でも任せられる中でのエンジニアとしてのあり方についてどうなるか?」
質問が出た点について私如きが高尚な回答()をしたので、補足のためにスライドを追加しました。
エージェント基盤はSoAと呼ばれており、SoRを前提としておりそれを通じたデータアクセスやガバナンスなどの統制要素が必要となってきます。改めて眺めても大きなものであり、自社のドメインやウィルに即したシステム仕様を翻訳できるエンジニアの存在は以前として必須であるというのが私の考えです。
会場の雰囲気は良くて普段あまり接点のない若い方々が一杯いたので最初だけ緊張したのですが、
いい雰囲気の中でストイックな質問もらったので非常に楽しかったです。
ryoppippiさんに声かけて良かった
エージェント開発のAIワークフロー インナーループからアウターループまでの実践記録 株式会社エーピーコミュニケーションズ 大久保直紀 1
大久保直紀 ‣ ロール:バックエンド寄りの何でも屋 最近の業務:エージェントアプリケーションの企 ‣ 画、設計、開発 ‣ 好きな技術:会議で暴れること ‣ 趣味:自転車、食べ歩き 年齢:39歳 ‣ ‣ 所属:株式会社エーピーコミュニケーションズ コードを書く機会が減ったのに、仕事が増えて いるんだよなぁ😢
エージェント開発とは?
エージェント開発とは? AIがツールやデータを使ってタスクを実行する ワークフローを設計すること プラットフォームを作ったことがなく ても誰でも知っている存在 4
エージェントの設計パターン:Planner-Executor 計画を立てるAgentと処理を実行するエージェン トを分離して実行する設計パターン 計画と実行を分離して動的にワークフ ローを実行する、あらかじめ用意され たワークフローの実行だけではなく、 インテントから動的にワークフローを 生成するものもある。 5
エージェントの設計パターン:Re ection/ReAct 生成した結果を元に次のステップの決定や別ロー ルで検査・改善するパターン。 終端でネクストステップを決める場合は ReAct, 自己改善に向かうとRe eciton fl fl 6
エージェントの設計パターン:Router 入力に応じた振り分け先のエージェントを呼び出す パターン。 Routerとなるノードには振り分け先と ルールを実装することで、入力に対応 するケイパビリティや権限を持つAgent まで自然言語の入力によりシームレス なUXで呼び出すことができる。 7
エージェントの設計パターン:Multi-Agent 複数のエージェントをヒエラルキーやネットワーク、 ワークフローグラフなどのパターンで連携する 8
エージェントプラットフォームの成立要件 エージェントプラットフォームは昨今 System of Action(SoA)と呼ばれ 初めており、SoR・SoEなどと同列で 扱う向きがある。 基盤としてツール利用のために安全な 認証・認可とインターフェースを持っ たSoRやサービスが必要であり、成立 要件である。 9
エージェントプラットフォームの成立要件 ‣ SoAとSoRのフルスクラッチ統合基盤構築を推奨するクラウドベンダー ‣ 既存資産を活用を売りにするGemini Enterprise ‣ 大規模にエージェントAI向けに事業を準備としてSoRを推奨するAWS ‣ エージェントの活動は情報の統合であるとしSoRを必須とするAzure ‣ 基盤の不足をツールやSaaSで補うスタイル(小規模・個人利用・抜け穴的) ‣ 各種SaaSを開発したAgentから叩く ‣ Computer-useにより端末操作から契約しているSaaSや組織の基盤に接続 するパターン。(Claude,OpenAI, OpenClaw, Moltbook…) 10
私のエージェント開発 AIワークフローとは?
三つのループで表現した開発プロセス 12
インナーループ:開発ワークフロー 設計はdrawioからコード生成し、コーディング、ビ ルド、デバッグはほぼCodexに任せてる Codex 13
ミドルループ:開発物評価 ・ゴールデンデータセットの評価:データサイエンティスト中心 ・出力テスト:トレースからLLM as a Judege ・コードレビュー:致しません Observable in local No review Span Export Judge 14 Push
ミドルループ:Arize Phoenixのトレース画面 15
ミドルループ:LLM as a judgeによる評価 16
アウターループ:継続的な評価運用 ・デプロイ:Github Actions/Argo CD/Container Registry ・観察:Arize Phoenixと監視基盤連携(未対応) ・フィードバック:Arize Phoenixやユーザーレビュー ユーザー チェック フィードバック 開発チーム traceId: xxxxx スコアや感想 通知 継続的蓄積 異常なトレース チェック スコアや感想 17 Prometheus
まとめ
私のAIワークフローまとめ ‣ エージェント開発は既存のSoRの上に成り立っており、これを利用することを前 提とした開発つまり基盤拡張や新規でもある種の基盤拡張的なパラダイムと考え ている。 ‣ 3つのループに分けて開発フローを定義している ‣ インナーループ:drawioを中心としたハーネスを組んでほとんどCodex任せ ‣ ミドルループ:コードレビューはせずモデルを信用、LLMOps基盤をローカル レベルから導入して結果判定しCodexにPushはissueを書かせている ‣ アウターループ:LLMOps基盤を中心に人とトレースからのフィードバックを 自動化しながら評価している。 ‣ 余談ではあるが、プラットフォーム構築は5.3-codex以降はほぼ全任せである 19
でも仕事減ってないんだよね