Synthetic Data Generation with Large Language Models for Text Classification

828 篇文章

已下架不支持订阅

本文是LLM系列文章,针对《Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations》的翻译。

摘要

高质量训练数据的收集和管理对于开发具有卓越性能的文本分类模型至关重要,但它通常会带来巨大的成本和时间投资。研究人员最近探索了使用大型语言模型(LLM)生成合成数据集作为一种替代方法。然而,LLM生成的合成数据在支持模型训练方面的有效性在不同的分类任务中是不一致的。为了更好地理解影响LLM生成的合成数据有效性的因素,在本研究中,我们研究了在这些合成数据上训练的模型的性能如何随着分类的主观性而变化。我们的结果表明,在任务级别和实例级别上,主观性与在合成数据上训练的模型的性能呈负相关。最后,我们讨论了我们的工作对利用LLM生成合成数据的潜力和局限性的影响。

1 引言

2 相关工作

3 方法

4 评估1:不同类型任务的比较

5 评估2:不同任务实例的比较

6 结论和讨论

在本文中,我们对影响LLM生成的合成

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值