442 Views
September 07, 24
スライド概要
四国クラウドお遍路 2024 in 高知で発表したときの資料です。
Amazon Bedrockのガードレール機能の概要をについて調べた内容を話しました。
https://jawsug-sikoku.connpass.com/event/322019/
Amazon Bedrock ガードレール入門
自己紹介 所属: 株式会社ウフル 名前: 丹羽 智紀 好きなAWSサービス - AWS Step Functions - AWS CDK 1
Amazon Bedrockとは 様々なAIモデルを簡単に利用できる、 フルマネージド型の生成AIサービス AWS Cloud Amazon Bedrock ユーザー入力 アプリ API マネコン AIからの回答 推論用 入力 ガードレール用 入力 基盤 モデル 出力 最終出力 ガード レール 2
ガードレールを使用する動機 最新のAIモデルのほとんどが、すでに標準で不適切な回答 を防ぐための仕組みを搭載している Amazon BedrockのGuardrailsはサービス提供者/利用者が追 加でのガードレールの機能(安全性・堅牢性・セキュリ ティ)を追加で行うことが出来る (第二の防衛ライン的な役割) 安全性:有害な入力に対してシステムを守る 堅牢性:有害な入力に対して適切な出力をする 3
事例 (Slack AI) 「パブリックチャンネル」からSlack AIが学習した「プライベートチャ ンネル」のAPIキーを聞き出せた (2024年8月14日) 被害者はパブリックチャンネルに居ない、攻撃者はプライベートチャン ネルに居ない状況で攻撃を成功 問題点: システムプロンプトとユーザープロンプト が区別出来ないため、悪意のあるメッセー ジを学習してしまう。 (学習したものは、LLMは正しいと判断して 回答しまう傾向にある) 引用: https://promptarmor.substack.com/p/data-exfiltration-from-slack-ai-via 4
Amazon Bedrock Guardrails 生成AIのアプリケーションに、責任あるAIポリシー(安全性 ・堅牢性・プライバシー・セキュリティなど)を実現するた めの機能 ガードレール 単語 フィルター 責任あるAIポリシー コンテンツ フィルター 機密情報 フィルター 拒否トピック コンテキストに基づく グラウンドチェック 5
ガードレールの種類と求められること ① 倫理的ガードレール(コンテンツフィルター、単語フィルター) 差別、偏見、有害である可能性のある入力、出力を防止 ② コンプライアンスガードレール (拒否されたトピック / 機密情報フィルター ※一部) モデルの出力に対するデータ保護、プライバシーやポリシーなどが対象の分野の法的要件を満たす (例: 医療、金融、個人情報保護など法律) ③ コンテキストガードレール (コンテキストに基づくグラウンドチェック) 必ずしも有害ではないが、文脈によって有害になる出力を防止 これまでの出力やRAGで追加検索した結果とモデルの出力の整合が取れているかを出力 ④ セキュリティガードレール(機密情報フィルター ※一部) 機密情報が漏洩したり、誤った情報の拡散を防ぐ ⑤ 適用型ガードレール ガードレール自体がモデルと共に進化し、倫理観や法的基準が継続的に整合性が保たれる ※括弧の中は 対応するBedrockのガードレールの機能 attri ブロクより引用 https://attri.ai/blog/a-comprehensive-guide-everything-you-need-to-know-about-llms-guardrails 6
採用する観点 (主観) • 適合しそうなケース – toCやtoBとしてプロダクションのケース 不適切な回答にやハルシネーションにより、信頼を損ねると損 失になるケース • 適合しなさそうなケース – 社内向けでサービスでアイディアを募るなど、正確性よりクリ エイティブ正を求める用途や、やり直しが聞く場合 7
費用 • 推測が入らない(機密情報の正規表現やワードフィルタ) は無料 • 推論が入る場合は機能ごとに費用がかかる 料金体系:2024/09/06時点 費用は1000文字ごとに1ユニット切り上げ 8
使い方 • モデル推論時(InvokeModel/InvokeModelWithResponseStream API や モデルに依存しない共通アクセスの Converse API)のパラメータにガ ードレールIDを渡す • ApplyGuardrail API を用いてプロンプト or 回答結果に対して直接ガ ードレールを適用する • ナレッジベースをクエリするとき(RetrieveAndGenerate API)のパラ メータにガードレールのIDを渡す • Agents for Amazon Bedrock でエージェント作成時に関連付ける 応答: 各フィルターごとの0.0〜1.0のスコアと干渉有無 と 回答(修正が あれば修正された回答) 9
Amazon Bedrock ガードレールまとめ • モデルがもともと持つ不適切な回答を防止する 機能に追加出来る防ぐ機能 • 単語登録やトピック登録など簡単なチューニン グで利用できるマネージサービス 10
ご清聴ありがとうございました AIの活用でより良いサービスの提供を皆さんと考えて行 きたいと考えています コメントを頂けると幸です 11