fix bleu

gomate-community · Oct 2, 2024 · 019a541 · 019a541
1 parent d035642
commit 019a541
Show file tree

Hide file tree

Showing 2 changed files with 4 additions and 3 deletions.
diff --git a/rageval/metrics/answer_correctness/_answer_bleu.py b/rageval/metrics/answer_correctness/_answer_bleu.py
@@ -55,7 +55,7 @@
     'AnswerCorrectness'
     >>> score, results = metric.compute(dataset["answers"], dataset["gt_answers"], 1)
     >>> score
-    0.27008629492975705
+    0.3450835085970013
     >>> results[0]
     0.5401725898595141
 """
@@ -118,7 +118,8 @@ def compute(
         """Compute the bleu score on both corpus level and instance level."""
         bleu = evaluate.load("bleu")
         # corpus level
-        score = bleu.compute(predictions=pred_answers, references=ref_answers)
+        bleu_result = bleu.compute(predictions=pred_answers, references=ref_answers)
+        score = bleu_result['bleu']
         # instance level
         scores = []
         for pred_answer, ref_answer in tqdm(zip(pred_answers, ref_answers),

diff --git a/tests/units/test_answer_bleu.py b/tests/units/test_answer_bleu.py
@@ -40,5 +40,5 @@ def test_case_on_answer_bleu(testset):
     assert metric.mtype == 'AnswerCorrectness'
     assert repr(metric) == "answer_bleu"
     score, results = metric.compute(testset['answers'], testset['gt_answers'], 1)
-    assert score == 0.27008629492975705
+    assert score == 0.3450835085970013
     assert results[0] == 0.5401725898595141