Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across

文章主要内容总结:

该研究首次全面评估了大型语言模型(LLMs)在金融和会计任务中的输出一致性与可重复性。研究使用OpenAI的GPT-3.5-turbo、GPT-4o-mini和GPT-4o模型,针对分类、情感分析、摘要、文本生成和预测五大任务,通过50次独立运行生成超过340万次输出,覆盖财务报告、新闻、会议记录等多类文本数据。主要发现如下:

  1. 任务依赖性一致性:二元分类和情感分析的一致性接近完美(Fleiss’ Kappa >0.93),复杂任务如多分类和数值预测的一致性较低。
  2. 模型差异:高级模型(如GPT-4o)在数值预测中表现更优,但在多分类任务中未必优于旧版本(如GPT-3.5-turbo)。
  3. 聚合策略:通过3-5次运行的多数投票或平均策略可显著提升一致性,成本增加有限。
  4. 人类对比:LLMs在分类任务中的一致性显著高于人类专家,尤其在文本歧义场景中表现更稳定。
  5. 下游分析鲁棒性:尽管存在输出差异,统计推断仍保持高可靠性(97.35%正确推断),有效缓解了"G-hacking"风
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值