マルチモーダルなAIの活用@LLMProducion

7.1K Views

March 04, 24

#マルチモーダルAI #VLM #LLM #行動認識 #対話分析

スライド概要

第4回 LLM Production ( https://llm-in-production.connpass.com/event/311891/ )の登壇資料です。

久保静真

@seishin55

スライド一覧

ACES, Inc. 共同創業者 ← 東大松尾研 ← 鹿児島・鶴丸 / Web&深層学習 / 画像認識・生成 / 大規模モデル・生成AI / blog ( http://tech.acesinc.co.jp ) / Qiita ( http://qiita.com/shizuma )

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

techexpert_20230719

久保静真 7.6K

マルチモーダルなAIの活用@Next_in_LLM

久保静真 3.3K

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

各ページのテキスト

マルチモーダルなAIの活⽤株式会社ACES 久保静真 2024/3/4 0

⾃⼰紹介久保静真 (くぼしずま) Twitter: @seishin55 Qiita: @shizuma 株式会社ACES 執⾏役員/研究開発部統括マネージャー。東京⼤学⼤学院⼯学系研究科技術経営戦略学専攻修⼠号を修了。ソフトウェア開発、データ分析、機械学習及び深層学習の分野での研究、開発、教育に従事の後、2017年にACESを共同創業。独⾃に開発した AIモデルをモジュール化の上で効率的に提供できる仕組みを構築しつつ、AIモデルの開発・活⽤から⾃社プロダクトの開発まで幅広く管掌。現在は⽣成AI/LLMに関する研究開発を推進。 Communication コミュニケーションの科学 Human Digital Twin Mobility ⾏動・属性のデジタル再現⾞両の内外データの活⽤ 1

資料情報 ACESに興味を持った⽅へ • LLM/RAGやマルチモーダルな取り組みに興味があるエンジニアの⽅ • ⾳声認識技術に興味があるエンジニアの⽅ • など Twitter (X) • 登壇資料を投稿しています • ID: seishin55 2

1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø【事例①】VLMを活⽤した⾏動認識 Ø【事例②】対話シーンの検出とLLM応答 3. まとめ

独自開発のAIモジュールを用いて、業務プロセスや事業価値をデザインし、①DXパートナー②AIソフトウェアの2つの事業を通じて課題解決事業内容特定の業界における課題をお客様とプロジェクトを伴⾛して解決事業① DXパートナー内容 ACES独⾃のモジュールを活⽤し、 DX戦略・実装・運⽤まで⼀貫して⽀援契約プロジェクト実⾏契約＋AIライセンス契約独⾃開発の AIモジュール AIデザインプロジェクトで得た課題をプロダクト化プロダクトを活⽤しプロジェクトを推進事業② AIソフトウェア業界横断の課題を AI SaaSを提供することで解決内容業界・産業横断の共通課題を解決する AI SaaSの開発・提供契約 AIライセンス契約

PRODUCT CONCEPT ACES Meetとは活⽤が困難だったお客様とのやり取りをデータベース化し、営業⼒を強化する活動に活⽤できる営業⽀援AIツールです。お客様とのやり取りお客様とのやり取りをDB化･活⽤する営業⽀援AIツール営業⼒の強化勝ちパターン DB 活⽤スキルアップ･育成商談記録･引継ぎ

PRODUCT CONCEPT ACES ChatHubとは⾃社のデータ×業務に特化したChatGPTなどの⼤規模⾔語モデル/⽣成AIを、 ①チームで②セキュアに利活⽤できるチャットボットAIプラットフォームです。社内のマニュアル・コミュニケーション社内マニュアル・ノウハウと連携したチャットボットAIプラットフォームコミュニケーションDX ヘルプデスク⾃動化ビデオ会議ツール DB 活⽤カスタマーサービス⾃動化ドキュメントノウハウの継承チャットツール

1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø【事例①】VLMを活⽤した⾏動認識 Ø【事例②】対話シーンの検出とLLM応答 3. まとめ

10.

紹介する事例 VLMを活⽤した⾏動認識 • Vision-Language Model (VLM)を活⽤した⾏動認識技術についての事例のご紹介 • VLMに内在する知識を活⽤し、抽象的に定対話シーンの検出とLLM応答 • 対話コミュニケーションにおいて⾔語/⾳声/映像情報から特定の⾏動の検索を⾏い、その結果をLLMに活⽤する考え⽅のご紹介義された⾏動を少数データで検出可能に 9

11.

1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø 【事例①】VLMを活⽤した⾏動認識 Ø【事例②】対話シーンの検出とLLM応答 3. まとめと今後

12.

VLMを活⽤した⾏動認識とは？ • ルールベースで⼀般に定義が難しい⾏動を少数のデータでの学習で検出可能にする技術 (特許取得済) Youtubeリンク: https://www.youtube.com/watch?v=kfLgjhiCaQw

13.

VLMの活⽤で何ができるようになったのか？ VLM/⼤規模モデルが獲得している⾔語と動画の概念的な対応関係を活⽤することで⼀般的な深層学習モデルで学習する場合よりも① 抽象的な⾏動を② 少数のデータで認識できる。 ①抽象的に定義される⾏動 ②少数の学習データ従来の⼿法物体検出・姿勢推定の結果からルールベースで⾏動を定義して⾏動認識を⾏う検出したい⾏動のデータを収集し深層学習技術を⽤いてモデルを作成し⾏動認識を⾏う課題「物体の上に⼈がいる」などの定義しやすい⾏動は認識可能だが、「ふらつく」などの定義が難しい⾏動はルールベースで汎⽤的に検出することが難しい認識したい⾏動のデータが⼤量に必要であり、多⼤な収集コストを要する。認識したい⾏動を増やす場合はその都度、その⾏動を再度収集する必要がある効果定義付けの難しい「ふらつき」などの⾏動を VLM (Vision-Language Model)によって、検出したい⾏動と関連するテキスト(プロンプト)を与えることで汎⽤的に検出できる VLM (Vision-Language Model)が獲得している⾔語 - 動画の概念的な対応関係を活⽤することで、⼀般的な深層学習モデルで⾏動を認識する場合よりも、少数のデータでの学習で⾏動を認識できる

14.

どのようにVLMが使われているのか？検出したい⾏動に関係のある状態のテキスト(プロンプト)を作成し、VLMにより各フレームに対するそのテキストの存在確率を出⼒する。その出⼒を活⽤して時系列解析モデルが⾏動を検出。動画ヒヤリハットが存在する可能性のある動画を分割 … … ① 物体検出・トラッキング⼈物を検出し、トラッキング … … ② クロッピング⼈物ごとに動画をクロップ … … (⼊⼒) 動画 ③ VLM ④ 時系列解析 (出⼒) 検知結果 VLMで各⾏動の存在確率を計算各⾏動の存在確率からヒヤリハットの有無を判定通常⾏動 … 通常⾏動ヒヤリハット検知ヒヤリハット検知 … 通常⾏動

15.

1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø【事例①】VLMを活⽤した⾏動認識 Ø 【事例②】対話シーンの検出とLLM応答 3. まとめ

16.

対話シーンに対してどういうことがしたいか？対話シーン、例えば、営業の動画 (映像、⾳声、書き起こしテキストのマルチモーダル) からテキストに限定されない情報を活⽤してアドバイスなどの応答を⾏ってほしい。 AI 「そうですね...今後の開発計画については...少々お待ちください...」「これらは営業が質問されて詰まったシーンのリストです。これらは営業が苦⼿なトピックなので練習をしていきましょう。」

17.

なぜやりたいか？対話コミュニケーションにおいてマルチモーダルな情報が⼤事な役割を果たす。営業において、トークスクリプトだけでは⼗分な解析することが難しい。最近はお元気ですか？導入時期はいつ頃を予定していますでしょうか？言語情報: 質問文音声情報: 語気が強い画像情報: 姿勢が前のめり次回はいつお打ち合わせしますか？

18.

どのように動画データを活⽤するのか？マルチモーダルな情報を推論した結果に対して様々な条件のクエリを活⽤して、意図する動画の抽出及び解釈を⾏い、LLMが応答する。(特許出願中) 自然言語処理 <質問文検知> <トピック分類> … 音声処理 <会話の間> <抑揚> <スピード> 画像処理 <表情認識> <姿勢推定> … <視線推定> … LLM クエリ検索 (複数のand/or条件や⼀定閾値以上/以下など) (例) <質問⽂検知> + <会話の間> → 質問されて回答に時間が掛かったシーン検索結果を受けて応答⽣成

19.

動画データを活⽤するための知⾒蓄積の仕組み特徴量を組み合わせ検証のインターフェース • マルチモーダルな特徴量の組み合わせをブロックのつなぎとして直感的に表現して動画に対するクエリ検索を実⾏。独⾃の知⾒の蓄積 • 作成したクエリを蓄積して、⼀度作成したものを再利⽤可能に。

20.

1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø【事例①】VLMを活⽤した⾏動認識 Ø【事例②】対話シーンの検出とLLM応答 3. まとめ

21.

紹介した事例 VLMを活⽤した⾏動認識 • Vision-Language Model (VLM)を活⽤した⾏動認識技術についての事例のご紹介 • VLMに内在する知識を活⽤し、抽象的に定対話シーンの検出とLLM応答 • 対話コミュニケーションにおいて⾔語/⾳声/映像情報から特定の⾏動の検索を⾏い、その結果をLLMに活⽤する考え⽅のご紹介義された⾏動を少数データで検出可能に 20

22.

ACESに興味がある⽅へ ACESに興味を持った⽅へ • LLM/RAGやマルチモーダルな取り組みに興味があるエンジニアの⽅ • ⾳声認識技術に興味があるエンジニアの⽅ • など Twitter (X) • 登壇資料を投稿しています • seishin55 21