rag-bench

RAG-Bench is to summarize all datasets used to evaluate RAG, from document retrieval to question answering. For each dataset, we try our best to accumulate all SOTA results from latest publications, and summarize them into a coherent table. We hope this would help researchers to keep up with the latest deveopments on each benchmark.

Benchmarks

Here are datasets with the corresponding metrics.

Task	Dataset	Pubyear	Documents	Questions	Answers	Metrics
Factoid QA	Natural Questions (NQ)	2019	_Wikipedia	_{323,045 questions with each an wikipedia page}	_{paragraph/span}	Rouge, EM
	TriviaQA	2017	_{662,659 evidence documents}	_{95,956 QA pairs}	_{text string (92.85% wikipedia titles)}	EM
	NarrativeQA (NQA)	2017	_{1,572 stories (books,movie scripts) \& human generated summaries}	_{46,765 human generated questions}	_{human written, short, averaging 4.73 tokens}	Rouge
	SQuAD	2016	_{536 articles}	_{107,785 question-answer pairs}	_spans	EM
	PopQA	2023	_wikipedia	_{14k questions}	_{long-tail entites}	EM
	HellaSwag	2019	_{25k Activity contexts and 45k WikiHow contexts}	_{70k examples}	_{classification}	Accuracy
	StrategyQA	2021	_{wikipedia (1,799 Wikipedia terms)}	_{2,780 strategy questions}	_{its decomposition, evidence paragraphs}	EM
	Fermi	2021	_-	_{928 FPs (a question Q, an answer A, supporting facts F, an explanation P)}	_spans	Accuracy
Multi-Hop QA	2WikiMultihopQA	2020	_{articles from wikipedia and wikidata}	_{192,606 questions each with a context}	_{textual spans, sentence-level supporting facts, evidence (tiples)}	F1
Multi-Hop QA	HotpotQA	2018	_{The whole wikipedia dump}	_{112,779 question-answer pairs}	_{text span}	F1
Long-Form QA	ELI5	2019	_{250 billion pages from Common Crawl}	_{272K questions}	_{multiple sentences}	Citation Recall, Citation Precision, Claim Recall
	WikiEval	2023	_{50 wikipedia pages}	_{50 questions}	_{text spans (sentences)}	Ragas
	ASQA	2022	_wikipedia	_{6,316 ambiguous factoid questions}	_{long-form answers}	disambig F1, RougeL, EM
	WebGLM-QA	2023	_-	_{44979 samples}	_sentences	RougeL, Citation Recall, Citation Precision
Multiple Choice QA	TruthfulQA	2021	_-	_{817 questions that span 38 categories}	_{sentence answer/multiple choice}	EM
	MMLU	2021	_-	_{15,908 multiple-choice questions}	_{4-way multiple choice}	Accuracy
	OpenBook QA	2018	_{7326 facts from a book}	_{5,957 questions}	_{4-way multiple-choice}	Accuracy
	QuALITY (QLTY)	2022	_-	_{6,737 questions}	_{4-way multiple choices}	Accuracy
Open-Domain Summarization	WikiAsp	2021	_{Wikipedia articles from 20 different domains}	_{320,272 samples}	_{1) aspect selection (section title), 2) summary generation (section paragraph)}	ROUGE, F1, UniEval
Fact-checking	Scifact	2020	_{5,183 abstracts}	_{1409 claim-abstract pairs}	_{3-class classification (support/refutes/Noinfo)}	nDCG@10
	FEVER	2018	_{50,000 popular pages from wikipedia}	_{185,445 claims}	_{3-class classification}	Accuracy
	Feverous	2021	_wikipedia	_{87,026 claims}	_{3-class classification/evidence retrieval}	Accuracy

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
benchmarks		benchmarks
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

rag-bench

Benchmarks

About

Releases

Packages

Contributors 2

License

gomate-community/rag-bench

Folders and files

Latest commit

History

Repository files navigation

rag-bench

Benchmarks

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Packages