主要内容
- 研究背景与目的:数字化时代产生大量文本数据,潜在内容分析意义重大,大语言模型(LLMs)可实现分析自动化,但缺乏多维度与人类标注者对比评估。本研究旨在对比LLMs与人类标注者在情感、政治倾向、情感强度和讽刺检测方面的可靠性、一致性和质量,提出四个研究问题。
- 研究方法:选取33名精通英语的人类标注者和7种前沿LLMs(8种变体),对100条精心挑选的文本进行标注。文本涵盖情感、政治倾向、情感强度和讽刺检测四个维度,每个维度25条。人类标注者依据详细说明在Likert 5分制量表上进行标注;为LLMs设计标准化提示,让其按相同量表评估。使用多种统计软件,通过计算Krippendorff’s alpha评估评分者间信度,计算组内相关系数(ICC)评估LLMs随时间的一致性,进行t检验和方差分析(ANOVA)对比LLMs与人类标注者的分析质量。
- 研究结果:在情感分析和政治倾向评估中,人类和LLMs都表现出较高可靠性,LLMs内部一致性更强;情感强度方面,LLMs一致性高于人类,但人类对情感强度的评分显著更高;讽刺检测上,两者一致性都低。所有LLMs在各维度都有出色的时间一致性。在质量对比上,情感分析和政治倾向评估中LLMs与人类表现相近,情感强度和讽刺检测存在差异。不同LLMs在可靠性、一致性、一致性水平和可比性上存在显著差异,GPT-4及其变体在部分维度表现更优。
- 研究结论:LLMs在情感分析和政治倾向评估方面可有效替代人类,但在情感强度和讽刺检测上存在局限,仍需人类专业判断。未来研究可从增强情感理解、改进讽

订阅专栏 解锁全文
956

被折叠的 条评论
为什么被折叠?



