20260227_Microsoft Foundry で作成した自作エージェントをアバターにして対話してみた!

>100 Views

February 27, 26

スライド概要

すきやねんAzureイベント:AI エージェントって何でつくったらええねん(https://sukiyanenazure.connpass.com/event/381341/)登壇資料
Microsoft FoundryのVoice Live APIを活用しXRデバイスでアバターを使った会話をするデモを紹介。
Voice Live APIのプレビュー版の話も少ししました。

profile-image

ICT業界でソフトウェアエンジニア/アプリケーションアーキテクトを担当。 社内ではXR関連技術に関する啓もう活動や技術支援に従事。 業務の傍ら、XR(特にMixed Reality領域)についての開発技術の調査、開発などを行っています。 また、「大阪駆動開発」コミュニティ所属しており、日々の調査で得た知見はコミュニティを通して情報発信を行っています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Microsoft Foundry で作成した 自作エージェントをアバターにして対話してみた! 2026/02 すきやねんAzure!! @takabrz1 Takahiro Miyaura

2.

宮浦 恭弘 (Miyaura Takahiro) Microsoft MVP for Mixed Reality 2018 Microsoft MVP for M365 2025 - 2026 XR は趣味です.AI 系も最近始めました。 - 202 5 大阪駆動開発コミュニティに生息 HoloLens 日本販売してからxR 系技術に取組む 新しい技術や、MRに使えそうな技術を調べる 技術Tips : https://qiita.com/miyaura https://zenn.dev/miyaura 最近興味があって取り組んでいるもの ○ AndroidXR ○ 新しいガジェット( MiRZA,Galaxy XR,etc …) ○ Microsoft Foundry, 生成AI @takabrz1 ※よかったらこれを機にお知り合いになってください

3.

最近はXR技術のなかでも生成AI活用は注目 Ray - ban Meta, Even G2, Galaxy XR など ライフログや会話、見ている映像等を入力 AI を通じた情報活用を実現する XR 技術をジェスチャーや音声、空間情報を生成AI とつ なぐために利用 Samsung Galaxy XR Gemini を使えるAndroid XR プラットフォーム搭載 音声や視覚情報で生成AI を活用できる 2026/02/27 業務用途では情報のコントロールは必須 エージェントの管理 or ローカルLLMのような仕組み Microsoft Foundry あるじゃない (他にも当然ありますが個人的な興味で!) © 2026 Takahiro Miyaura 3

4.

Microsoft Foundryの話 去年のIgniteの話を少しだけ 2026/02/27 © 2026 Takahiro Miyaura 4

5.

Microsoft Foundry The AI app and agent factory Azure 上で提供されるAI エージェントの開発、運用を管理するプラットフォーム Models Agent Service IQ Tools Machine Learning Control Plane Cloud Edge Security, compliance, and governance 引用: Microsoft.Let your agentic apps talk with Azure Speech.Microsoft Ignite 2025.2025,11,p.3.https://ignite.microsoft.com/ en - US/sessions/BRK198, (参照 2026 - 01 - 21 ).

6.

Azure Speech product overview Speech to Text Text to Speech MCP MCP New @Ignite 2025! Speech Translation • Real-time transcription • Pre-built neural & HD voices • Real-time speech translation • Fast transcription • Custom voices • Live interpreter • Batch transcription • Text to Speech avatar • Video translation • Custom speech • Video or Photo LLM Speech PuPr • LLM powered Transcription and Translation More tasks coming soon 引用: Microsoft.Let your agentic apps talk with Azure Speech.Microsoft GA PuPr Voice Live • Real-time API for building voice agents • Choice of models • Built-in • Bring your own Ignite 2025.2025,11,p.4.https://ignite.microsoft.com/ GA en - US/sessions/BRK198, (参照 2026 - 01 - 21 ).

7.

GA | Announcing new capabilities Voice Live API Voice-enable any agent with advanced, real-time voice GenAI Model choice High quality global locale coverage More engaging with Avatar Easy customization aka.ms/voice-live 引用: Microsoft.Let your agentic apps talk with Azure Speech.Microsoft Ignite 2025.2025,11,p.14.https://ignite.microsoft.com/ en - US/sessions/BRK198, (参照 2026 - 01 - 21 ).

8.

Create Engaging, Personalized Voice Agents Video Avatar (GA) Photo Avatar • • • • • • Trained from video High - fidelity and professional Full/half body avatar Gesture support 10+ hours model training time 引用: Microsoft.Let your agentic apps talk with Azure • • • • Speech.Microsoft Preview | Ignite 2025 Built from a photo, using Microsoft Research’s VASA Talking - head avatar Expressive & creative More cost effective 0 model training time Ignite 2025.2025,11,p.17.https://ignite.microsoft.com/ - 1 model en - US/sessions/BRK198, (参照 2026 - 01 - 21 ).

9.

このAvatarを空間に召喚することがようやくできたという話 2026/02/27 © 2026 Takahiro Miyaura 9

10.

デモ 最低限の機能を検証 2026/02/27 © 2026 Takahiro Miyaura 10

11.

Microsoft Foundry Voice Live API 基本的にはOpenAI Realtime API 準拠 メッセージの流れなどは基本同じだが独自要素がある Voice Live API - 2026/02/27 の独自追加機能: ノイズ抑制(Azure Deep Noise Suppression エコーキャンセル 高度なエンドオブターン検出(Semantic VAD アバター連携 140 以上のロケール対応のTTS/STT © 2026 Takahiro Miyaura ) ) 11

12.

Avatarを使う時は2種類の通信手段を使う ユーザからの送信ルートとアバターの映像受信の2系統 本来のWebRTCは双方向通信可能ですが・・・ ○ Foundry では生成AI への入力 ○Foundry のサーバ ○ 生成AI からの応答 ○文字情報はFoundry サーバ ○映像と音声はWebRTC経由 【参考】 Avatar を使わない場合 ○全てFoundry サーバで処理する 2026/02/27 © 2026 Takahiro Miyaura 12

13.

注意! 2026/02/27 © 2026 Takahiro Miyaura 13

14.

使うモデルで課金額が・・・ 私はpreview 版の頃に最上位のモデル使ったままにして (自分で設定した)Azure 課金アラートに久々に引っかかりました ○ モデルと課金レベル(ティア) ティア 対象モデル 特徴 Pro gpt-realtime, gpt-4o, gpt-4.1, gpt-5, gpt-5-chat 大規模LLM。最高精度 Standard gpt-realtime-mini, gpt-4o-mini, gpt-4.1-mini, gpt-5-mini 小規模LLM。コストと性能のバランス Lite gpt-5-nano, phi4-mm-realtime, phi4-mini SLM。最低コスト BYO 自分でデプロイしたモデル(Fine-tuned, PTU等) プレビュー。価格未公開 Avatar Text to Speech Avatar 連携 分単位課金 2026/02/27 © 2026 Takahiro Miyaura 14

15.

使うモデルで課金額が・・・ 私はpreview 版の頃に最上位のモデル使ったままにして (自分で設定した)Azure 課金アラートに久々に引っかかりました ○ Voice Live Pro (東日本 - 2026/02 カテゴリ 調査時点) Input Cached Input Output Text ¥675.36 ¥211.05 ¥2,701.42 Audio ¥2,609.33 ¥67.54 ¥5,832.62 ¥6,139.60 ¥67.54 ¥8,441.95 ¥5,402.85 ¥67.54 ¥10,805.70 (Azure Speech - Standard) Audio (Azure Speech - Custom) Native Audio (speech-to-speech リアルタイムモデル) Avatar の出力は Text to Speech の「対話型アバター(リアルタイム)」経由で課金される。 Voice Live の価格表には含まれず、別途 Text to Speech Avatar 価格が適用される。 2026/02/27 © 2026 Takahiro Miyaura 15

16.

使うモデルで課金額が・・・ 私はpreview 版の頃に最上位のモデル使ったままにして (自分で設定した)Azure 課金アラートに久々に引っかかりました ○ Voice Live Standard (東日本 - 2026/02 カテゴリ Input Cached Input Output Text ¥101.30 ¥50.65 ¥405.21 Audio ¥2,302.35 ¥50.65 ¥5,065.17 ¥5,986.11 ¥50.65 ¥7,674.50 ¥1,688.39 ¥50.65 ¥3,376.78 (Azure Speech - Standard) Audio (Azure Speech - Custom) Native Audio (speech-to-speech リアルタイムモデル) 調査時点) Avatar の出力は Text to Speech の「対話型アバター(リアルタイム)」経由で課金される。 Voice Live の価格表には含まれず、別途 Text to Speech Avatar 価格が適用される。 2026/02/27 © 2026 Takahiro Miyaura 16

17.

使うモデルで課金額が・・・ 私はpreview 版の頃に最上位のモデル使ったままにして (自分で設定した)Azure 課金アラートに久々に引っかかりました ○ Voice Live Lite (東日本 - 2026/02 カテゴリ 調査時点) Input Cached Input Output Text ¥16.88 ¥6.14 ¥67.54 Audio ¥2,302.35 ¥6.14 ¥5,065.17 — ¥6.14 ¥7,674.50 ¥613.96 ¥6.14 — (Azure Speech - Standard) Audio (Azure Speech - Custom) Native Audio (speech-to-speech リアルタイムモデル) Avatar の出力は Text to Speech の「対話型アバター(リアルタイム)」経由で課金される。 Voice Live の価格表には含まれず、別途 Text to Speech Avatar 価格が適用される。 2026/02/27 © 2026 Takahiro Miyaura 17

18.

そして! 2026 - 01 - 01 - preview で待望の! 2026/02/27 © 2026 Takahiro Miyaura 18

19.

Microsoft Foundry上の エージェントをツールとして呼ぶ機能などが追加 まだPreview だけど、GAされたらかなり便利な機能に成長する!? https://learn.microsoft.com/ja - jp/azure/ai - services/speech - service/voice - live - api - reference - 2026 - 01 - 01 - preview ? wt.mc_id =WDIT - MVP- 5003104 ○ エージェントが使えるツールとしてFoundryAgentTool が追加 ○ リアルタイム音声会話するエージェントが別のエージェントに処理を ツールとして扱うことでより高度な作業が可能に ○ 待機無音時の応答機能も追加 ○ 一定条件とトリガーに構成済みのテキストからランダムに応答する ○ 上記の強化によって応答時間が長くなった時の対応 2026/02/27 © 2026 Takahiro Miyaura 19

20.

Microsoft Foundry上の エージェントをツールとして呼ぶ機能などが追加 まだPreview だけど、GAされたらかなり便利な機能に成長する!? https://learn.microsoft.com/ja - jp/azure/ai - services/speech - service/voice - live - api - reference Microsotf ○ これまで - 2026 - 01 - 01 - preview ? wt.mc_id =WDIT - MVP- 5003104 Foundry どれか1つだけ使える ○ Preview 版 Microsotf Foundry Tool で多数のエー ジェントが使える 2026/02/27 © 2026 Takahiro Miyaura 20

21.

まとめ 2026/02/27 © 2026 Takahiro Miyaura 21

22.

まとめ Microsoft Foundry Foundry Tools 上のAI エージェントをアバターで召喚 – Voice Live API Foundry 上のエージェントやAI モデルにリアルタイムで様々なUI を使える ○ テキスト ○ 音声会話 ○ アバター 2026/02/27 © 2026 Takahiro Miyaura 22

23.

大阪駆動開発 関西を中心に、IT系のおもしろそうなことを 楽しんでやるコミュニティ