513 Views
June 27, 25
スライド概要
https://sakura-tokyo.connpass.com/event/355318/
#さくらのAI Meetup vol.11「Agent2Agent(A2A)」ライトニングトークにて使用
畠山です。ネットスター株式会社でエンジニアをしています。
A2A時代に求められるセキュリティ・ガバナンスとは 2025年6月25日 ネットスター株式会社 研究開発部 研究開発課 畠山 Copyright(C) NetSTAR Inc., All rights reserved
本日のアジェンダ 1. 弊社ご紹介 2. A2A時代に想定される新たなリスク 3. ガードレール技術の可能性 2
本日のアジェンダ 1. 弊社ご紹介 2. A2A時代に想定される新たなリスク 3. ガードレール技術の可能性 3
弊社ご紹介 弊社はURLフィルタリングおよび情報セキュリティ関連製品・サービスの開発を主力とする開発会社です。 以下、弊社の代表製品及び事業を簡単に紹介いたします。 アクセスマネジメントシリーズ 国内向け スマートフォン向け製品 海外向け インターネットアクセス管理 Webアプリケーションアクセス管理等 情報漏洩対策シリーズ ファイル暗号化、デバイス制御等 4
本日のアジェンダ 1. 弊社ご紹介 2. A2A時代に想定される新たなリスク 3. ガードレール技術の可能性 5
A2A時代に想定される新たなリスク AIエージェントの普及が今後進んだ場合、「人」対「AI」に加え、「AI」対「AI」、「AI対ツール」などの接点が増えること で、対話量・通信量が爆発的に増加すると予想される。 凡例) 対話・通信の接点 アプリケーション(UI) ①入力接点 ⑤出力接点 Input ツール連携 Web検索 DB連携 AIエージェント Output ④エージェント接点 ②外部ツール接点 サブエージェント① タスク作成・管理(Planning) 外部サービス 連携 推論(Reasoning) ループ サブエージェント② 行動(Action) ③メモリ接点 記憶(Memory) 6 出典①:OWASP「Agentic AI – Threats and Mitigations」を基にネットスター作成
A2A時代に想定される新たなリスク 人とAIの間だけでなく、AIエージェント間など、各接点周辺で様々なリスクが生じる可能性があり、単一のリスク対策の みでは対処が難しい。ゼロトラストや多層防御の考え方を基本にしたリスク対処が求められる。 凡例) アプリケーション(UI) プロンプトインジェクション ブラックボックス化問題 ①入力接点 ⑤出力接点 Input AIエージェント ハルシネーションの増幅 Output ④エージェント接点 ②外部ツール接点 ツール連携 A2Aにおけるリスク サブエージェント① 意図破壊・目標操作 Web検索 DB連携 機密データ漏洩・流出 タスク作成・管理(Planning) 外部サービス 連携 ツール誤用 推論(Reasoning) 権限のない操作の実行 ループ サブエージェント② 行動(Action) 不正なエージェント ③メモリ接点 メモリポイズニング 記憶(Memory) エージェント間 コミュニケーションポイズニング 7 出典①:OWASP「Agentic AI – Threats and Mitigations」を基にネットスター作成
本日のアジェンダ 1. 弊社ご紹介 2. A2A時代に想定される新たなリスク 3. ガードレール技術の可能性 8
A2A時代のガードレール活用可能性 AIエージェントシステムの各接点において、エージェントの自律的かつ適切なタスク実行を阻害する不適切な入出力を 検知することで、ガバナンスを効果的に高めることができるのではないか。 ケースA:入力接点での活用 悪意の入力検知(プロンプトインジェク ション・ジェイルブレイク等) テーマ・トピック関連性の検知 アプリケーション(UI) ①入力接点 ⑤出力接点 Input ツール連携 Web検索 DB連携 ケースB:出力接点での活用 個人情報・機密情報フィルター ヘイトスピーチ、ハラスメント、暴力など の有害出力モデレーション AIエージェント Output ④エージェント接点 ②外部ツール接点 サブエージェント① タスク作成・管理(Planning) 外部サービス 連携 推論(Reasoning) ループ サブエージェント② 行動(Action) ケースC:外部ツール/メモリ/エージェント 接点での活用 アクション・ツール連携のセーフガード ‒ 各Agentが連携可能なツールやデータにリ スク評価を割当て、自動アクションをトリガー ③メモリ接点 凡例) 記憶(Memory) ガードレール活用例 9
弊社取り組みのご紹介 不適切なコンテンツ(まずはテキストベース)を検知可能な分類器を開発しており、チャットボット接点等にご活用いた だけるβ版が完成している。また、この分類器をMCP経由で利用できるようなサーバーを開発中。 開発中の弊社研究テーマ概要 人間による テキスト投稿 検知カテゴリの現状と見通し LLMによる テキスト出力 誹謗中傷 特定人物・法人等(キャラクター含む) の名誉を傷つける可能性がある文章 わいせつ 性的・卑猥な表現、一部のセクシャルハラ スメントを含む文章 →無害 AIエージェント 差別 精神的不調 自殺につながるような、書き⼿の精神的 不調が疑われる文章 MCPサーバーとしての活用 MCP 誹謗中傷 追加中 … 有害← ある対象を不当に攻撃・差別する文章 … 弊社 AIガードレール 差別 わいせつ 問題なし 安全性観点での検知・分類 問題なし HTTP(REST API) MCP Server(開発中) 弊社AIガードレール ✓ AIガバナンスやインターネットセキュリティにご興 10 味がおありでしたらぜひお声がけください
ご清聴ありがとうございました。 本資料は、後ほどconpassにアップロードいたします。 以下は不適切表現検知デモサービスの画面イメージです。 https://console.rd-guardrail-dev.netstar-inc.com/public/ より利用申請していただけますので、是非お試しください! ご意見などもいただけましたら、チーム一同、大変喜びます!! (発表後に更新) 連絡先: ネットスター株式会社 研究開発部 研究開発課 畠山 大五 URL:https://www.netstar-inc.com/ Mail:[email protected] Copyright(C) NetSTAR Inc., All rights reserved 11