Skip to content

Latest commit

 

History

History
64 lines (43 loc) · 2.66 KB

course6_note.md

File metadata and controls

64 lines (43 loc) · 2.66 KB

大模型评测

1.统一评测的必要性:

了解模型能力、边界,提供优化方向; image

2.测试哪些方面:

image

3.怎么评测:

base chat的区分:

base:在测试时,单句加入一些额外的指令;

chat:直接对话即可;

4.客观评测:

基于正则表达式的方式,提取回答; image

5.主观评测:

可以用GPT-4等模型评测回复的质量;

相关工作:JudgeLM image

6.用prompt的方式测试敏感性:

image 预期模型在以上5个问题上都能答对;如果模型答错了,说明它敏感性就比较大;

7.主流LLM评测框架:

image

8.OpenCompass:

在各个维度上进行了一个整合; image image

评测流水线设计:

对用户开发和使用非常友好; image

9.前沿探索:

MMBench:多模态

image

LawBench:法律领域

image

MedBench:医疗领域

image

10.总结:

image

代码:

新东西:主观评测的设置;具体参考文档;

关键:如果需要模型的生成有随机性,可以在generation_kwargs参数中设置;如do_sample,temoerature,top_K等等;

客观评测中,不会设置此类参数。如需设置,可以去huggingface上看官方的模型参数设置; image