文章主要内容总结:
该研究首次全面评估了大型语言模型(LLMs)在金融和会计任务中的输出一致性与可重复性。研究使用OpenAI的GPT-3.5-turbo、GPT-4o-mini和GPT-4o模型,针对分类、情感分析、摘要、文本生成和预测五大任务,通过50次独立运行生成超过340万次输出,覆盖财务报告、新闻、会议记录等多类文本数据。主要发现如下:
- 任务依赖性一致性:二元分类和情感分析的一致性接近完美(Fleiss’ Kappa >0.93),复杂任务如多分类和数值预测的一致性较低。
- 模型差异:高级模型(如GPT-4o)在数值预测中表现更优,但在多分类任务中未必优于旧版本(如GPT-3.5-turbo)。
- 聚合策略:通过3-5次运行的多数投票或平均策略可显著提升一致性,成本增加有限。
- 人类对比:LLMs在分类任务中的一致性显著高于人类专家,尤其在文本歧义场景中表现更稳定。
- 下游分析鲁棒性:尽管存在输出差异,统计推断仍保持高可靠性(97.35%正确推断),有效缓解了"G-hacking"风