在使用LLaMA-Factory进行微调的时候,我们常常需要同时微调多个任务,并且希望能查看微调后的模型在不同任务上的表现,从而有针对性地对数据集进行调整,提升其整体效果。然而LLaMA-Factory的训练和测试默认是将所有数据集合并后打包在一起的,这无疑增大了测试的麻烦程度。本文以微调text2sql任务为例,探索了手动测试多数据集的方式,并在研究项目源码之后对其进行了修改,完成了对多文件的自动化测试并自动生成总结文件,最终测试效果如下图所示。

🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容

手动测试
以text2sql任务为例,我们已经构建了8个不同任务的sql数据集,并微调好了一个模型。