【DL輪読会】Self-Improving VLM Judges Without Human Annotation

>100 Views

December 18, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Self-Improving VLM Judges Without Human Annotation Koya Sakamoto, Matsuo Iwasawa Lab D1 http://deeplearning.jp/ 1

2.

書誌情報 ➢ タイトル Self-Improving VLM Judges Without Human Annotation ➢ 著者 Inna Wanyin Lin, Yushi Hu, Stella Li, Scott Geng, Pang Wei Koh, Luke Zettlemoyer, Tim Althoff, Marjan Ghazvininejad (FAIR at Meta, University of Washington) ➢ リンク ➢ arXiv: https://www.arxiv.org/abs/2512.05145 ※このスライドの図表は元論文から引用しています. 2

3.

概要 様々なAIタスクの評価でVLM/LLM as a judgeが使われている. しかし, judgeモデルの学習のためには, 大規模 なhuman annotationsが必要であり, 時間とお金がかかる. そこで, 本研究ではVLM自身がデータを生成しpreference を学習する方法を提案. ➢ VL-RewardBench (Lei +, CVPR 2025) ではより大きいモデルやクローズドなモデルよりも高い性能を発揮 ➢ GT answer が無くても, 画像とinstructionのペアのみからデータセット構築, モデル学習可能 (Lei +, CVPR 2025) Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu , VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models, CVPR 2025 3

4.

導入: VLM/LLM as a judge Caption生成や自由記述のVQAの評価は, gt answerとの完全一致では測れない. human evaluation よりも低コストで, 意味的一致を図れるVLM/LLM as a judgeが使われている. 本論文では, VLM自身がデータセットを構築することで, human annotation無しでモデル自身を学習 4 (Tianyi, CVPR 2025 ) Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li, LLaVA-Critic: Learning to Evaluate Multimodal Models, CVPR 2025

5.

提案手法 5

6.

提案手法: 1. Synthetic Preference Pair Generation 高品質なpreference pairsの作成が重要となる. 合成データ生成にあたり, captioningやlong answer (Open-Ended)なのか, それとも, 回答の選択肢が限られている (Closed-Ended)のか, の2通りで設計方法を分ける. 【 Open-Ended Tasks】 2つのresponseを生成. 1つはそのまま用い, もう一方は物体の属性や数値等を変更して用いる. 【 Closed-Ended Tasks】 N個のresponseを生成. Preference pairsの作成には以下の2通りで検証 • Majority Voting: 最も生成されたresponseをpreferred response, randomにsamplingされたresponse をless preferred response として用いる • Correct Answer Filtering: Ground truth answerと一致したresponseをpreferred response, それ以外をless preferred responseとして用いる 6

7.

提案手法: 2. Generate and Sample Training Data with Previous-iteration Judge Chain of Thought (CoT)付きのjudgeをVLMでN回行う. 正しいjudgeとなったCoTとそのpreferenceデータを学習デー タとして用いる. 位置バイアスを減らすために, preferred response とless preferred response の並び順は逆にした際にもjudgeが一致 したデータのみを学習データとして用いるようにfiltering する. 7

8.

実験設定 データ生成・学習に用いる画像には, reasoning, math, coding, captioning 等のMultimodalなタスクを含んだ LLaVA-OneVisionを利用. 各サブデータセットから1万件をサンプリングし, 計10万件の画像とinstructionの ペアを提案手法で用いる. 評価には, VL-RewardBench (VLRM)とMultimodal RewardBench (MMRB)を用いる. 8

9.

実験結果 ➢ iterationを重ねるごとにスコアが向上 ➢ 学習モデルは11Bだが, VLRBでは90BのモデルやClaude-3.5程度のスコアを達成 ➢ VLRBのgeneral instruction following (Gen.)とhallucination detection (Hallu.)では大幅な改善 ➢ MMRBのreasoning (Reason.)やsafety evaluation (Safe.)では精度向上が限定的 9

10.

実験結果: Majority Voting v.s. Correct Answer Filtering Gt answer を使った場合 (Correct)よりもmajority votingで作成したデータセットで学習した方が高スコア ➢ Majority Votingの方がCorrectよりもデータセットサイズがより大きくなっている ➢ Gt answer と一致したjudgeのCoTが”正しい”とは限らない 10

11.

実験結果: Correctness Filter Negative Example Final answer は正しいが, それに至るreasoningが誤り. 11

12.

まとめ Human annotation無しでVLM as a judgeを学習させる枠組みを提案. VLRBでは, 提案手法で学習した11Bのモデルが, 90Bやclosedなモデル程度のスコアを達成. しかし, 改善幅は「モデルが良質な合成データを作れる領域」に留まる. 特に, モデルが自発的に生成しにくい「安全性(Safety)」や「高度な推論」タスクでは, スコアの向上が小 さかった. 特殊なドメインの学習には依然として外部データが必要となる. 12

13.

Judge Prompt Please act as an impartial judge and evaluate the quality of the responses provided by two AI assistants to the user question displayed below. You should choose the assistant that follows the user’s instructions and answers the user’s question better. Your eval uation should consider factors such as the helpfulness, relevance, accuracy, depth, creativity, and level of detail of their respons es. Begin your evaluation by comparing the two responses and provide a short explanation. Avoid any position biases and ensure that the orde r in which the responses were presented does not influence your decision. Do not allow the length of the responses to influence yo ur evaluation. Do not favor certain names of the assistants. Be as objective as possible. After providing your explanation, output your fina l verdict by strictly following this format: ’[[A]]’ if assistant A is better, ’[[B]]’ if assistant B is better. [User Question] {q} [The Start of Assistant A’s Answer] {r1} [The End of Assistant A’s Answer] [The Start of Assistant B’s Answer] {r2} [The End of Assistant B’s Answer] YOU MUST STRICTLY FOLLOW THE FORMAT BELOW. Start with **EVALUATION** and make sure to add double brackets around the final answer. **EVALUATION**: Provide a detailed comparison of both responses, analyzing their strengths and weaknesses based on the above factors. Be specific about why one response better serves the user’s needs. **FINAL ANSWER**: ’[[A]]’ if assistant A is better, ’[[B]]’ if assistant B is better. 13