画像/動画生成のデータセット

5.2K Views

March 03, 24

スライド概要

第12回 全日本コンピュータビジョン勉強会での発表資料です。現時点での画像/動画生成のデータセットについてまとめました。

profile-image

サラリーマン研究員。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

画像/動画生成の データセット 尾崎安範(あるふ)

2.

自己紹介 ● 尾崎安範(あるふ) ○ ○ ○ AI PicassoにもいるAIエンジニア AIいらすとやなどの画像生成 AIなどを開発した ■ AIいらすとやは情報処理学会の学会誌にのった もともとはロボット屋さんだった (IROSとか通してた) ● 経歴 ○ ○ ○ ○ ○ 2014年 修士(情報理工学)取得 2014年 NTT研 2019年 CyberAgent AI Lab / 大阪大学 2023年 満期退学(😭) 2024年 AI Picasso ←いまここ https://note.com/ipsj/n/nff43097b0c76

3.

AI Picassoについて ● 画像生成AIや動画生成AIを使って、 アプリやWebサービス、受託開発などを行っている会社 ○ みんなAI Picassoっていうアプリ使ってね

4.

AI Picassoにいて思うこと 1. 2. 3. 4. 画像生成や動画生成ができないと社会課題が解決できない データセットがないと生成AIは作ることができない データセットがほしい! ということで、論文とそのデータの収集方法をつらつら紹介していって、 まとめセクションで全体の傾向をまとめる

5.

LAION-5B ● ● ● Stable Diffusionのもとになった50億枚の画像テキストペアデータセット 下図のとおりの前処理をしている 最終的に得られたデータセットは画像リンク先とテキストであり、 画像は含まれていない Schuhmann et al., “LAION-5B: An open large-scale dataset for training next generation image-text models”, NeurIPS 2022

6.

CommonCanvas ● ● Creative Commons の画像だけを7000万枚集めた 画像テキストデータセットとそれから作ったモデル CCの画像で画像生成する分には倫理的な問題が生じにくい ○ 「CCライセンスの画像は画像生成につかっていい」と CCの人は回答している Gokaslan et al., “CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images”, 2023, preprint

7.

DALL-E 3 ● ● OpenAIが発表した画像生成 画像のテキストにはALT Textのようなメタデータを使わず、 機械的にテキストをつけ直すようにしている ○ ○ CLIPベースのイメージキャプション器を用意 まず、被写体にフォーカスするような短いキャプションで学習してから、 背景などを含めた長いキャプションでイメージキャプション器を微調整している Betker et al., “Improving Image Generation with Better Captions,” 2023, preprint

8.

Sora ● ● OpenAIが発表した自称・世界シミュレータ 動画のテキストにはALT Textのようなメタデータを使わず、 機械的にテキストをつけ直すようにしている ○ ● DALL-E 3と同じ感じらしい データ量は不明だが、作者いわく制作に1年かかったらしい ○ Stable Diffusionを作った人は 1000万GPU hours かかったと見ている Brooks, Peebles, et al., “Video generation models as world simulators”, 2024, Website

9.

Lumiere ● ● Googleが公開した動画生成 テキスト付きの3000万本の動画を使用して学習されている Bar-Tal et al., “Lumiere: A Space-Time Diffusion Model for Video Generation”, 2024, preprint

10.

Genie ● ● ● Googleが公開した動画内のエージェントを操作できる動画生成 インターネットゲーム動画を20万時間使用 テキストはなし、行動のラベルは教師なしで学習 Bruce et al., “Genie: Generative Interactive Environments”, 2024, preprint

11.

Panda-70M ● ● ● ● 7000万本以上/合計167時間以上の動画テキストペアが含まれている データセット ライセンスを読む限り、生成でも商用利用可能そう 長い動画を短く切って、Video-LLaVAなどのマルチモーダルモデルを 使いつつ、動画テキスト検索をかけてテキストを付けた 最終的に得られたデータセットは動画リンク先とテキストであり、 動画は含まれていない ○ 見た感じYouTubeの動画だが https://snap-research.github.io/ Panda-70M/

12.

感想 ● ● ● なんかデータセットに関して詳しく書くと炎上要素になるのか、 全体的にデータの詳しい内訳は公開されていない ただし、前処理の工夫などは公開されており、 参考になるところは多い 動画について言うならばYouTubeを持つGoogleがデータ量で圧勝している ○ ○ ○ Panda-70Mが約200時間に対し、GoogleのGenieは200000時間 YouTubeすべては数百億時間を超えている可能性がある 日本で対抗できるのはニコニコ動画だろうか

13.

おまけ: LLaVAによるテキスト付け ● マルチモーダルモデルを使ってテキスト付けする ○ ○ LLaVAはおおよそDALL-E 3のイメージキャプション器に似ている構造をしている バッチ処理用スクリプトを自分の Githubリポジトリに公開中 https://github.com/alfredplpl/LLaVA/blob/main/llava/serve/cli_batch.py