大模型评测 1.统一评测的必要性: 了解模型能力、边界,提供优化方向; 2.测试哪些方面: 3.怎么评测: base chat的区分: base:在测试时,单句加入一些额外的指令; chat:直接对话即可; 4.客观评测: 基于正则表达式的方式,提取回答; 5.主观评测: 可以用GPT-4等模型评测回复的质量; 相关工作:JudgeLM 6.用prompt的方式测试敏感性: 预期模型在以上5个问题上都能答对;如果模型答错了,说明它敏感性就比较大; 7.主流LLM评测框架: 8.OpenCompass: 在各个维度上进行了一个整合; 评测流水线设计: 对用户开发和使用非常友好; 9.前沿探索: MMBench:多模态 LawBench:法律领域 MedBench:医疗领域 10.总结: 代码: 新东西:主观评测的设置;具体参考文档; 关键:如果需要模型的生成有随机性,可以在generation_kwargs参数中设置;如do_sample,temoerature,top_K等等; 客观评测中,不会设置此类参数。如需设置,可以去huggingface上看官方的模型参数设置;