Geminiで物体検知

>100 Views

February 18, 26

#xrmtg #xr #ai #geminiapi #Gemini API #物体検出 #Android XR #Mixed Reality #AI

スライド概要

【大阪-オンライン開催】XRミーティング 2026/02/18(https://osaka-driven-dev.connpass.com/event/382176/ )
Galaxy XRでGemini API使ってオブジェクト検出やってみる話。Gemini APIを使い画像をリアルタイムで分析させ物体検知を試してみた話。現実空間に合わせる処理が不十分でプロットは変だったが、かなり柔軟な物体検知システムが作れることが分かった。

Miyaura

@m-taka596

スライド一覧

ICT業界でソフトウェアエンジニア/アプリケーションアーキテクトを担当。社内ではXR関連技術に関する啓もう活動や技術支援に従事。業務の傍ら、XR（特にMixed Reality領域）についての開発技術の調査、開発などを行っています。また、「大阪駆動開発」コミュニティ所属しており、日々の調査で得た知見はコミュニティを通して情報発信を行っています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

OpenVRやOpenXRの基本的なことを調べてみた

xrmtg openxr openvr hololens

Miyaura 26.4K

冬休みの宿題 - Lenovo Think Reality A3で検証(MRTK3含)

xrmtg mrtk3 mixed reality snapdragon spaces thinki reality a3

Miyaura 13.2K

Mixed Reality Toolkit 3で始めるクロスプラットフォーム開発

xr mrtk3 metaquest3 snapdragonspaces xrkaigi

Miyaura 11.5K

今更ですがちょっとMetaQuest3でMRTK3触ってみました

mixed reality xrmtg mrtk3 unity

Miyaura 11.5K

MRTK3をLenovoのThink Reality A3上で動かす - Snapdragon Spaces SDKの紹介

hololens ホロマジ snapdragonspaces mrtk3 xr unity

Miyaura 11K

Snapdragon Spaces v0.12.0 for Unityの調査(あれも試してみてる)

xrmtg mrtk3 mixed reality snapdragon spaces think reality a3

Miyaura 8.9K

各ページのテキスト

Gemini で物体検知 2026/02 XR ミーティング @takabrz1 Takahiro Miyaura

宮浦恭弘 (Miyaura Takahiro) Microsoft MVP for Mixed Reality 2018 - 202 5 Microsoft MVP for M365 2025 - 2026 XR は趣味です.AI 系も最近始めました。大阪駆動開発コミュニティに生息 HoloLens 日本販売してからxR 系技術に取組む新しい技術や、MRに使えそうな技術を調べる技術Tips : https://qiita.com/miyaura https://zenn.dev/miyaura 最近興味があって取り組んでいるもの ○ AndroidXR ○ 新しいガジェット( MiRZA,Galaxy XR,etc …) ○ Microsoft Foundry, 生成AI @takabrz1 ※よかったらこれを機にお知り合いになってください

経緯先週末に福岡XR ミーティングの一幕 Android XR ってGemini 使って簡単に開発できるんですか？やってみよう！ついでだから物体検知ひさしぶりに・・・実際のところ・・・ OSレベルはGemini を柔軟に使える ○ 自作アプリ関係なくオーバーレイでGemini 使える ○ 実装はAPI をゴリゴリ実装（今のところ。SDK でやってほしい） 2026/02/18 © 2026 Takahiro Miyaura 4

簡単なアーキテクチャ図 Unity アプリ Gemini GRBカメラ画像 + プロンプトフレーム API generateContent (REST) ( 座標 + ラベル) Microphone ディスプレイ音声 BoundingBoxScanner 画像キャプチャ / 座標変換空間配置 / トラッキング映像/音声ストリーム ( 座標 + ラベル) Transform BidiGenerateContent (WebSocket) 現実空間に Bounding Box 描画 2026/02/18 © 2026 Takahiro Miyaura 7

10.

[beta]

参考

画像から物体を検出する時はプロンプト次第で2D,3Dに切替える

○ 2Dのプロンプト例
Detect all objects in this image.
For each detected object, return the bounding box coordinates
as [ ymin , xmin , ymax , xmax ] where each value is normalized
to a 0 - 1000 scale, and provide a label.
Return ONLY a JSON array with no other text:
[{"label": "
object_name ", " box_2d ": [ ymin , xmin , ymax , xmax ]}]

○ 3Dプロンプト例
Detect all objects in this image.
For each detected object, return the 3D bounding box.
Return ONLY a JSON array with no other text:
[{"label": "
object_name ", " box_3d ": [ center_x , center_y
center_z , x_size , y_size , z_size , roll, pitch, yaw]}]
2026/02/18

© 2026 Takahiro Miyaura

,

10

11.

12.

13.

Galaxy XRで Gemini API使ってオブジェクト検出やってみる Android XR とは言え、自作アプリでは要実装 ○ Gemini API つかった物体検知 ○ Rest,WebSocket いずれも利用可能 ○ Prompt 指定で2D,3D のBounding Box を制御できる ○ 文章とセットで分析するため柔軟性が高い ○ 事前学習していなくてもかなりの物体をラベリングできる ○ 色々な遊び方も含めて様々なことができそう ○ 現実空間との位置合わせはやっぱり苦労する（笑） 2026/02/18 © 2026 Takahiro Miyaura 13

14.

大阪駆動開発関西を中心に、IT系のおもしろそうなことを楽しんでやるコミュニティ