本文是LLM系列文章,针对《Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations》的翻译。
基于大型语言模型的文本分类合成数据生成:潜力和局限性
摘要
高质量训练数据的收集和管理对于开发具有卓越性能的文本分类模型至关重要,但它通常会带来巨大的成本和时间投资。研究人员最近探索了使用大型语言模型(LLM)生成合成数据集作为一种替代方法。然而,LLM生成的合成数据在支持模型训练方面的有效性在不同的分类任务中是不一致的。为了更好地理解影响LLM生成的合成数据有效性的因素,在本研究中,我们研究了在这些合成数据上训练的模型的性能如何随着分类的主观性而变化。我们的结果表明,在任务级别和实例级别上,主观性与在合成数据上训练的模型的性能呈负相关。最后,我们讨论了我们的工作对利用LLM生成合成数据的潜力和局限性的影响。
1 引言
2 相关工作
3 方法
4 评估1:不同类型任务的比较
5 评估2:不同任务实例的比较
6 结论和讨论
在本文中,我们对影响LLM生成的合成