微调后推理性能问题 #44

daydayup-zyn · 2023-10-13T03:43:59Z

微调后合并并量化int4模型，直接对新模型进行推理，推理速度明显慢于官方int4模型。
但是如果是把微调的pytorch_model.bin替换官方的pytorch_model.bin文件后，再推理，速度就和官方的是差不多的。

这是哪块儿的问题呢？是得需要修再修改新模型的其他文件吗？

daydayup-zyn · 2023-10-13T05:40:49Z

使用官方int4中的quantization.py替换一下，推理性能也会提升

Provide feedback