8.1K Views
July 07, 24
スライド概要
CVPR 2024で発表されたImage Captioningの論文を一部紹介し、私も紹介します。
サラリーマン研究員。
CVPR 2024と Image captioningと 私 あるふ
CVPR 2024とImage captioningと私 • CVPR 2024で⼀番投稿が多かった分野 • 画像/動画⽣成: 329本 • Image Captioningは画像⽣成と対になる概念 • Image-to-Text: Image Captioningの別称 • Text-to-Image: (テキストからの)画像⽣成 • 私は画像⽣成を作っている Image-to-Text 「空と芝⽣」 テキスト • CommonArtという画像⽣成を作っている • CommonArtを作るにはImage Captioningが必要 Text-to-Image 画像
私とはなにか • 私はあるふ!⾃称・画像/動画⽣成AIエンジニアさ!ハハッ! • AI Picassoっていう会社を宣伝するためにやってきたのさ! • 代表作 • AIいらすとや • Emi
最近のImage Captioning • Text-to-Imageのための Image Captioning議論が国際的に活発 • めぼしいモデル • CogVLM: Stable Diffusion 3で使ってる • BLIP-2: CommonCanvasで使ってる • MoonDream2: AuraDiffusion でつかっている • LLaVA, Share-Captioner: PixArtで使っている • Florence-2: 俺と台湾の⼈が使っている • 最強のImage Captioningが求められている
CVPR 2024とImage captioning • ワークショップが1つ開催された • New frontiers for zero-shot Image Captioning Evaluation (NICE) • 論⽂はたくさんありすぎてわけがわからない • タイトルにImage captioningかVideo Captioningがついているのだけ でもこれだけある • MeaCap: Memory-Augmented Zero-shot Image Captioning • Polos: Multimodal Metric Learning from Human Feedback for Image Captioning • Sieve: Multimodal Dataset Pruning using Image Captioning Models • EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension • Streaming Dense Video Captioning • DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement • Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval • Retrieval-Augmented Egocentric Video Captioning • しかも、V&Lや画像⽣成を作ることを含むと本当にたくさんある • V&Lは152本 • そこで⼀部をClaude 3.5 Sonnetに全⽂読んでもらって紹介
Improved Baselines with Visual Instruction Tuning • 要約 • シンプルで効率的な⼤規模マルチモーダルモデル 「LLaVA-1.5」を提案 • 特徴的な新規性 • 画像を分割してエンコードすることで⾼解像度対応 • 1⽇で学習が終わるほど軽量 • 感想 • めちゃシンプルで強い。最近のモデルの基本形。
Polos: Multimodal Metric Learning from Human Feedback for Image Captioning • 要約 • ⼈間のフィードバックに基づく新しい画像キャプション評価⼿法を 提案し、複数のベンチマークで最先端の性能を達成 • 特徴的な新規性 • 画像と複数の参照キャプションを同時に考慮 • 感想 • ⽇本⼈の論⽂なので ⽇本語版を作ってほしい
Streaming Dense Video Captioning • 要約 • 任意の⻑さの動画に対応し、動画全体を処理する前に予測して Dense Captioningする⼿法を提案 • 特徴的な新規性 • ストリーミングデコーディングアルゴリズム • クラスタリングベースのメモリモジュール • 感想 • Googleの論⽂なのでYouTube全部使え!
Rich Human Feedback for Text-to-Image Generation • 要約 • Text-to-Imageの出⼒を評価・改善するための、 ⼈間のフィードバックデータセットとそれを予測するモデルを提案 • 特徴的な新規性 • フィードバックデータセットの中にある学習データを使⽤していない Text-to-Imageにも適⽤可能であることを⽰し、⼿法の汎⽤性を実証 • 感想 • ベストペーパーらしい
まとめ • LLaVAはつよい • ⼿っ取り早くImage Captioningしたいひとは 以下のモデルがおすすめ • 英語 • https://huggingface.co/microsoft/Florence-2-large • https://huggingface.co/microsoft/Phi-3-vision-128k-instruct • ⽇本語 • https://huggingface.co/cyberagent/llava-calm2-siglip • https://huggingface.co/toshi456/llava-jp-1.3b-v1.1-llava-jp-instruct-108k