FoundryのAvatarを召喚してみる

>100 Views

February 11, 26

スライド概要

AIミーティング 2026/02/11(AIミーティング 2026/02/11)登壇資料
FoundryのVoice Live APIを使ったアバターによる対話の仕組みを実装した話。

profile-image

ICT業界でソフトウェアエンジニア/アプリケーションアーキテクトを担当。 社内ではXR関連技術に関する啓もう活動や技術支援に従事。 業務の傍ら、XR(特にMixed Reality領域)についての開発技術の調査、開発などを行っています。 また、「大阪駆動開発」コミュニティ所属しており、日々の調査で得た知見はコミュニティを通して情報発信を行っています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Microsoft Foundryのアバターを召喚してみる (今日は動いてる所を見せられる) 2026/01 AI ミーティング @takabrz1 Takahiro Miyaura

2.

宮浦 恭弘 (Miyaura Takahiro) Microsoft MVP for Mixed Reality 2018 - 202 5 Microsoft MVP for M365 2025 - 2026 XR は趣味です.AI 系も最近始めました。 大阪駆動開発コミュニティに生息 HoloLens 日本販売してからxR 系技術に取組む 新しい技術や、MRに使えそうな技術を調べる 技術Tips : https://qiita.com/miyaura https://zenn.dev/miyaura 最近興味があって取り組んでいるもの ○ AndroidXR ○ 新しいガジェット( MiRZA,Galaxy XR,etc …) ○ Microsoft Foundry, 生成AI @takabrz1 ※よかったらこれを機にお知り合いになってください

3.

最近はXR技術のなかでも生成AI活用は注目 Ray - ban Meta, Even G2, Galaxy XR など ライフログや会話、見ている映像等を入力 AI を通じた情報活用を実現する XR 技術をジェスチャーや音声、空間情報を生成AI とつ なぐために利用 Samsung Galaxy XR Gemini を使えるAndroid XR プラットフォーム搭載 音声や視覚情報で生成AI を活用できる 2026/02/11 業務用途では情報のコントロールは必須 エージェントの管理 or ローカルLLMのような仕組み Microsoft Foundry あるじゃない (他にも当然ありますが個人的な興味で!) © 2026 Takahiro Miyaura 3

4.

Microsoft Foundryの話 去年のIgniteの話を少しだけ 2026/02/11 © 2026 Takahiro Miyaura 4

5.

Microsoft Foundry The AI app and agent factory Azure 上で提供されるAI エージェントの開発、運用を管理するプラットフォーム Models Agent Service IQ Tools Machine Learning Control Plane Cloud Edge Security, compliance, and governance 引用: Microsoft.Let your agentic apps talk with Azure Speech.Microsoft Ignite 2025.2025,11,p.3.https://ignite.microsoft.com/ en - US/sessions/BRK198, (参照 2026 - 01 - 21 ).

6.

Azure Speech product overview Speech to Text Text to Speech MCP MCP New @Ignite 2025! Speech Translation • Real-time transcription • Pre-built neural & HD voices • Real-time speech translation • Fast transcription • Custom voices • Live interpreter • Batch transcription • Text to Speech avatar • Video translation • Custom speech • Video or Photo LLM Speech PuPr • LLM powered Transcription and Translation More tasks coming soon 引用: Microsoft.Let your agentic apps talk with Azure Speech.Microsoft GA PuPr Voice Live • Real-time API for building voice agents • Choice of models • Built-in • Bring your own Ignite 2025.2025,11,p.4.https://ignite.microsoft.com/ GA en - US/sessions/BRK198, (参照 2026 - 01 - 21 ).

7.

GA | Announcing new capabilities Voice Live API Voice-enable any agent with advanced, real-time voice GenAI Model choice High quality global locale coverage More engaging with Avatar Easy customization aka.ms/voice-live 引用: Microsoft.Let your agentic apps talk with Azure Speech.Microsoft Ignite 2025.2025,11,p.14.https://ignite.microsoft.com/ en - US/sessions/BRK198, (参照 2026 - 01 - 21 ).

8.

Create Engaging, Personalized Voice Agents Video Avatar (GA) Photo Avatar • • • • • • Trained from video High - fidelity and professional Full/half body avatar Gesture support 10+ hours model training time 引用: Microsoft.Let your agentic apps talk with Azure • • • • Speech.Microsoft Preview | Ignite 2025 Built from a photo, using Microsoft Research’s VASA Talking - head avatar Expressive & creative More cost effective 0 model training time Ignite 2025.2025,11,p.17.https://ignite.microsoft.com/ - 1 model en - US/sessions/BRK198, (参照 2026 - 01 - 21 ).

9.

このAvatarを空間に召喚することがようやくできたという話 2026/02/11 © 2026 Takahiro Miyaura 9

10.

デモ 最低限の機能を検証 2026/02/11 © 2026 Takahiro Miyaura 10

11.

Microsoft Foundry Voice Live API 基本的にはOpenAI Realtime API 準拠 メッセージの流れなどは基本同じだが独自要素がある Voice Live API - 2026/02/11 の独自追加機能: ノイズ抑制(Azure Deep Noise Suppression エコーキャンセル 高度なエンドオブターン検出(Semantic VAD アバター連携 140 以上のロケール対応のTTS/STT © 2026 Takahiro Miyaura ) ) 11

12.

Avatarを使う時は2種類の通信手段を使う ユーザからの送信ルートとアバターの映像受信の2系統 本来のWebRTCは双方向通信可能ですが・・・ ○ Foundry では生成AI への入力 ○Foundry のサーバ ○ 生成AI からの応答 ○文字情報はFoundry サーバ ○映像と音声はWebRTC経由 【参考】 Avatar を使わない場合 ○全てFoundry サーバで処理する 2026/02/11 © 2026 Takahiro Miyaura 12

13.

まとめ 2026/02/11 © 2026 Takahiro Miyaura 13

14.

まとめ Microsoft Foundry 上のAI エージェントをアバターで召喚 Microsoft Foundry はエンタープライズ向けなので、 そうそう使わないかもですが。。。 最近注目されているXR ×AI 的な流れ ○ XR 技術と生成AI を組合わせるシーンはこれからも増えてきそう ○ XR 技術だと、音声やジェスチャー、カメラ画像で直接生成AI を呼べる ○ UX表現としても文字、音声、アバター以外にもXR なら色々使えそう 2026/02/11 © 2026 Takahiro Miyaura 14

15.

Qiita記事にしました。 Unityでの実装については後日投稿予定 Voice Live API でAvatar とリアルタイム会話を実現する サンプルコード コンソールで試せる版 ○ https://github.com/TakahiroMiyaura/VoiceLiveAPISamples UPMパッケージ化した版 ○ https://github.com/TakahiroMiyaura/UnityVoiceLiveAPI https://qiita.com/miyaura/items/e7b7a12258fb118a9701 2026/02/11 © 2026 Takahiro Miyaura 15

16.

大阪駆動開発 関西を中心に、IT系のおもしろそうなことを 楽しんでやるコミュニティ