【DL輪読会】Long-form Question Answeringの評価について

1.

DEEP LEARNING JP [DL Papers] Long-form Question Answeringの評価について Keno Harada, D1, the University of Tokyo http://deeplearning.jp/

http://deeplearning.jp/

2.

背景質問回答システムの開発を始める → なんかいい感じに回答してくれるようになったけど、どう評価すれば良い？ Long-form QAの評価について完全理解を目指します、具体的には • 評価で用いる指標 • 評価のためのデータセット作りについて説明・実践できるようになることを目指します過去発表: 自然言語生成(Natural Language Generation)の評価について2

https://deeplearning.jp/自然言語生成natural-language-generationの評価について/

3.

Long-form question answeringとはどのようなタスクでしょうか？評価の際には何が難しいのでしょうか？ Long-form question answering (LFQA)は、オープンエンドの質問に対して詳細で掘り下げた回答を必要とするタスクです。この評価には、関連する文書を取得し、それを使用して段落の長さの答えを生成することが含まれます。LFQAは、ウェブドキュメントから適切な情報を見つけ出し、それを複数の文に合成することを必要とします。特に、複雑な「なぜ」や「どのように」タイプの質問に対して、段落の長さの回答が含まれる大規模かつ多様なデータセットが必要です。 LFQAの評価には、現在モデリングの進歩を意味のあるものに阻んでいる根本的な課題があります。これらの課題は主に、モデル評価とデータセット作成に関するものです。モデル評価においては、多くのモデルが提案されていますが、正確な評価を行うことが難しいことが挙げられます。たとえば、与えられた質問に関連性があり、かつ正確さや答えの網羅性などをどのように測るかといった評価の基準を決定することが挙げられます。また、データセットの作成においても、LFQAのためのデータが限られていることや、それぞれの質問に対する適切な長い形式の答えを集めることが困難です。例として、ELI5 LFQAデータセットでの評価では、スパース・アテンションとコントラストリーバー・ラーニングに基づくシステムが最先端の性能を発揮しましたが、そもそも評価やデータセットの基準を克服する必要があることを指摘しています。評価にはテキストの取得精度（R-Prec）やテキスト生成の品質（ROUGE-Lなど）を測る指標が使われていますが、これらは回答の質を全面的に評価するには不十分かもしれません。 By GPT-4 + Web Search 3

4.

Long-form question answeringとはどのようなタスクでしょうか？評価の際には何が難しいのでしょうか？ Long-form question answering (LFQA)は、オープンエンドの質問に対して詳細で掘り下げた回答を必要とするタスクです。この評価には、関連する文書を取得し、それを使用して段落の長さの答えを生成することが含まれます。LFQAは、ウェブドキュメントから適切な情報を見つけ出し、それを複数の文に合成することを必要とします。特に、複雑な「なぜ」や「どのように」タイプの質問に対して、段落の長さの回答が含まれる大規模かつ多様なデータセットが必要です。どのような評価軸をどのように計測・算出できるか？ LFQAの評価には、現在モデリングの進歩を意味のあるものに阻んでいる根本的な課題があります。これらの課題は主に、モデル評価とデータセット作成に関するものです。モデル評価においては、多くのモデルが提案されていますが、正確な評価を行うことが難しいことが挙げられます。たとえば、与えられた質問に関連性があり、かつ正確さや答えの網羅性などをどのように測るかといった評価の基準を決定することが挙げられます。また、データセットの作成においても、LFQAのためのデータが限られていることや、それぞれの質問に対する適切な長い形式の答えを集めることが困難です。例として、ELI5 LFQAデータセットでの評価では、スパース・アテンションとコントラストリーバー・ラーニングに基づくシステムが最先端の性能を発揮しましたが、そもそも評価やデータセットの基準を克服する必要があることを指摘しています。評価にはテキストの取得精度（R-Prec）やテキスト生成の品質（ROUGE-Lなど）を測る指標が使われていますが、これらは回答の質を全面的に評価するには不十分かもしれません。 By GPT-4 + Web Search 4

5.

目次 • • Long-form Question Answering(LFQA)とは何か？ • 他のタスクとはどのように異なるタスクか LFQAでよく使用される指標について • 指標の算出にはどのようなデータ・手順が必要か 5

6.

参考文献 • ELI5: Long Form Question Answering • MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers • Hurdles to Progress in Long-form Question Answering • WebGPT: Browser-assisted question-answering with human feedback • A Critical Evaluation of Evaluations for Long-form Question Answering FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation • • • FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection 6

7.

Long-form Question Answering(LFQA)とは ELI5: Long Form Question Answering • “long-form question answering a task requiring elaborate and indepth answers to open-ended questions.” • • ”questions are complex and cannot be easily addressed by a short response or by extracting a word or phrase from an evidence document.” “open-ended questions that require explanations” Hurdles to Progress in Long-form Question Answering • “The task of long-form question answering (LFQA) involves retrieving documents relevant to a given question and using them to generate a paragraph-length answer” 7

8.

LFQAでないQA、NLPタスク Extractive QA • “Extractive question answering datasets such as TREC, SQuAD, NewsQA, SearchQA and QuAC constrain the answer to a word or short phrase from the input and evaluate using exact match or F1 with the ground truth span.” • HotpotQAも Abstractive QA • “Abstractive datasets include NarrativeQA, a dataset of movie and book summaries and CoQA, a multi-domain dialogue dataset. Both collect responses with crowdworkers and find that written answers are mostly extractive and short” • MS MARCO, TriviaQAなども Multi-document summarization • “writing a paragraph length response from multiple supporting documents can be seen as a form of query-based multi-document summarization.” • “WikiSum proposes writing Wikipedia articles as a multi-document summarization task. ElI5 requires more directed text generation to answer a question, rather than to write about a general topic” ELI5: Long Form Question Answering より 8

https://aclanthology.org/P19-1346.pdf

9.

Open-endednessとNLGタスクの関係 Open-endedness低機械翻訳要約 Source text: DL輪読会はとても楽しいです Reference Translation: - The DL reading group is very enjoyable. - Participating in the DL reading group is very enjoyable. Open-endedness高タスク志向型対話雑談対話 Input: よ！元気してる？ Output: - あんまりやな - めっちゃ元気やで - おもろい話、聞きたい？ストーリー生成 Input: 「ハリーポッターとLLM」の脚本書いて Output: (たくさんの可能性) Open-endednessが高い = 出力空間が多様 → 評価も難しくなる Stanford CS224N NLP with Deep Learning | 2023 | Lecture 11 - Natural Language Generation より日本語訳し一部改変 9

http://web.stanford.edu/class/cs224n/slides/cs224n-2023-lecture10-nlg.pdf

10.

LFQAの例: ELI5(Explain Like I’m Five) • Reddit上のExplain Like I’m Fiveというsubredditから作成 • • 回答がself containedであることが求められ、予備知識がない人向けにわかりやすく説明されている 2018年7月までの投稿で、スコア2以上(upvote数 / downvote数 >=2)の質問で、かつ、スコア2以上の回答が最低1つあるものを選択 • 全部で27万件ほど、著者以外の人間が目視で確認し適切なものを残す • 回答の正解データとして、質問に対して一番スコアが高いものを採用 • 回答根拠の情報ソースとして2018年7月時点のCommonCrawlデータ • • • • それぞれの質問に対して100のweb sourcesを準備 → それぞれの質問あたり、数十万文字の情報ソースがあるそれぞれのweb sourceを文章単位に分割、質問文と高いTFIDF値を持つsentenceを抜き出し、文脈を足し、結合することで1つのsupport documentを作成 TFIDF値を元にtrain/val/testを分割(237K/10K/25K) 10

11.

ELI5 ELI5: Long Form Question Answering より 11

https://aclanthology.org/P19-1346.pdf

12.

Long-form Question Answering(LFQA)とは何か？ • • • 単語や一文では回答できない、自由形式の質問に対して、質問への回答に関連する記述を検索して活用し、入念で詳細な回答を複数文の行うタスクである。有名なLFQAベンチマークデータセットとしてELI5(Explain Like I’m five) があり、質問の例として「脳や神経系がないクラゲはどのように機能するか？」といったものが挙げられる。 Extractive QAやAbstractive QAと異なり、ソース文からの単純な単語・文の抜き出しでは回答できない、回答に長文を要するタスクである。 12

13.

ELI5論文での評価 Evaluating long-form answers • • • • “There are several aspects to quality: answers should be topical and accurate, fluent, and coherent from start to end. We judge the accuracy aspect by comparing to the gold answer. ROUGE measures similarity between a model output and one or several references, and is often used in summarization.” “evaluators rate the fluency of human and model generated answers on a 5-point Likert Scale from “very poorly written” to “easily readable” “evaluators are given question-answer pairs and are asked if the answer is correct” “crowd-workers are given the question and answers from two models and asked to decide which answer they prefer while considering readability and accuracy” 13

14.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 人手で作成した文章のどれくらいの割合が生成文に含まれるか？ Recall-orientedとされているが、論文ではF値が報告されるので注意 ROUGE: A Package for Automatic Evaluation of Summaries より 14

https://aclanthology.org/W04-1013.pdf

15.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 15

16.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 16

17.

LFQA評価の課題 Hurdles to Progress in Long-form Question Answering “Simple baselines such as just repeatedly copying the question, or choosing a random training set answer can outperform LFQA systems such as RAG in terms of ROUGE-L” • ELI5のtrain/valの切り方が適切でない、という問題もある • “A possible fix is a sentence-level evaluation and then aggregating scores across generated sentences, but appropriate penalties are needed for lack of diversity and short length” • “Other possible fixes include learning task-specific metrics to measure semantic overlap or metrics to factual correctness and faithfulness to input” • “Ultimately all automatic metrics have their limitations, and human evaluation is necessary” • “they were often unfamiliar with the technical topics discussed in the questions. This made it hard for them to assess answer correctness” • “Annotators reported taking an average of 2 minutes per answer pair, many of which required careful thought & concentration” • 17

18.

LFQA評価の課題 A Critical Evaluation of Evaluations for Long-form question answering “experts consider properties such as completeness and factuality to be more decisive than surface-level aspects (e.g., conciseness and level of detail) on which crowdworkers tend to fixate” • ”even experts often disagree with each other about which answer is better; this disagreement stems from valuing fine-grained answer properties differently” • “encouraging the community to hire expert evaluators and move from poorlydefined judgments of overall preference to a multi-faceted evaluation modeling attributes such as answer completeness, factuality, and ease of understanding” • • “ROUGE is not a meaningful metric due to the open-ended nature of long-form answers” 18

19.

FActScore FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation より 19

https://arxiv.org/abs/2305.14251

20.

人手評価 or Reward Modelやタスクの評価にLLMを使用？ GPT-4使えば人手評価代替出来そう Judging LLM-as-a-judge with MT-Bench and Chatbot Arena https://arxiv.org/abs/2306.05685 Llama2論文でも少し言及 https://arxiv.org/abs/2307.09288 LLM輪読会(毎週木曜日午前9:00-10:30)での発表資料(原田失踪中につき中止中) RLAIF Llama 2: Open Foundation and Fine-Tuned Chat Models LLMの評価について Rakuda 日本語大規模言語モデルのベンチマーク自然言語生成(Natural Language Generation)の評価について 20

21.

Self-RAGでの評価 “Long-form generation tasks include a biography generation task and a longform QA task ALCE-ASQA. We use FactScore to evaluate biographies, and we use official metrics of correctness (str-em), fluency based on MAUVE, and citation precision and recall for ASQA.” Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection より 21

https://arxiv.org/abs/2310.11511

22.

LFQAでよく使用される指標について • • • 回答の評価の際には正確性・流暢性・一貫性などの軸で、人手評価・自動評価が行われる。自動評価の際には、ROUGEと呼ばれる指標が用いられ、正解の解答文を参照文と照らし合わせて算出される。しかしLFQAの回答の自由度が高いことからROUGEは指標として妥当でないこと、ROUGEのような総合スコアではなく、評価軸それぞれで評価を行い複合的に評価することが指摘されている。時間・コストがかかるという欠点はあるものの、LFQAタスクでの人手評価の必要性は指摘されている。人手評価の際にはアノテーターがLikert Scale での評価を行う場合や、回答を見比べてどちらが優れているか、その判断根拠は何かについて自由に記述してもらう評価の方法などがある。アノテーターがどの観点を重要視しているかが異なり、また質問・回答で扱っている内容について詳しくない場合もあるため人手評価にも入念な設計が必要である。 22

23.

まとめ (冒頭の質問への人手回答 by 原田GPT(8時間 / answer) Long-form Question Answering(LFQA)とは何か？ • • • 単語や一文では回答できない、自由形式の質問に対して、質問への回答に関連する記述を検索して活用し、入念で詳細な回答を複数文の行うタスクである。有名なLFQAベンチマークデータセットとしてELI5(Explain Like I’m five)があり、質問の例として「脳や神経系がないクラゲはどのように機能するか？」といったものが挙げられる。 Extractive QAやAbstractive QAと異なり、ソース文からの単純な単語・文の抜き出しでは回答できない、回答に長文を要するタスクである。 LFQAでよく使用される指標について • 回答の評価の際には正確性・流暢性・一貫性などの軸で、人手評価・自動評価が行われる。 • 自動評価の際には、ROUGEと呼ばれる指標が用いられ、正解の解答文を参照文と照らし合わせて算出される。しかしLFQAの回答の自由度が高いことからROUGEは指標として妥当でないこと、 ROUGEのような総合スコアではなく、評価軸それぞれで評価を行い複合的に評価することが指摘されている。 • 時間・コストがかかるという欠点はあるものの、LFQAタスクでの人手評価の必要性は指摘されている。人手評価の際にはアノテーターがLikert Scaleでの評価を行う場合や、回答を見比べてどちらが優れているか、その判断根拠は何かについて自由に記述してもらう評価の方法などがある。アノテーターがどの観点を重要視しているかが異なり、また質問・回答で扱っている内容について詳しくない場合もあるため人手評価にも入念な設計が必要である。 23

24.

Long-form question answeringとはどのようなタスクでしょうか？評価の際には何が難しいのでしょうか？ Long-form question answering (LFQA)は、オープンエンドの質問に対して詳細で掘り下げた回答を必要とするタスクです。この評価には、関連する文書を取得し、それを使用して段落の長さの答えを生成することが含まれます。LFQAは、ウェブドキュメントから適切な情報を見つけ出し、それを複数の文に合成することを必要とします。特に、複雑な「なぜ」や「どのように」タイプの質問に対して、段落の長さの回答が含まれる大規模かつ多様なデータセットが必要です。 LFQAの評価には、現在モデリングの進歩を意味のあるものに阻んでいる根本的な課題があります。これらの課題は主に、モデル評価とデータセット作成に関するものです。モデル評価においては、多くのモデルが提案されていますが、正確な評価を行うことが難しいことが挙げられます。たとえば、与えられた質問に関連性があり、かつ正確さや答えの網羅性などをどのように測るかといった評価の基準を決定することが挙げられます。また、データセットの作成においても、LFQAのためのデータが限られていることや、それぞれの質問に対する適切な長い形式の答えを集めることが困難です。例として、ELI5 LFQAデータセットでの評価では、スパース・アテンションとコントラストリーバー・ラーニングに基づくシステムが最先端の性能を発揮しましたが、そもそも評価やデータセットの基準を克服する必要があることを指摘しています。評価にはテキストの取得精度（R-Prec）やテキスト生成の品質（ROUGE-Lなど）を測る指標が使われていますが、これらは回答の質を全面的に評価するには不十分かもしれません。 By GPT-4 + Web Search 24

【DL輪読会】Long-form Question Answeringの評価について

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

【拡散モデル勉強会】Introduction to Diffusion Models

各ページのテキスト