主要内容
- 研究背景与目的:数字化时代产生大量文本数据,潜在内容分析意义重大,大语言模型(LLMs)可实现分析自动化,但缺乏多维度与人类标注者对比评估。本研究旨在对比LLMs与人类标注者在情感、政治倾向、情感强度和讽刺检测方面的可靠性、一致性和质量,提出四个研究问题。
- 研究方法:选取33名精通英语的人类标注者和7种前沿LLMs(8种变体),对100条精心挑选的文本进行标注。文本涵盖情感、政治倾向、情感强度和讽刺检测四个维度,每个维度25条。人类标注者依据详细说明在Likert 5分制量表上进行标注;为LLMs设计标准化提示,让其按相同量表评估。使用多种统计软件,通过计算Krippendorff’s alpha评估评分者间信度,计算组内相关系数(ICC)评估LLMs随时间的一致性,进行t检验和方差分析(ANOVA)对比LLMs与人类标注者的分析质量。
- 研究结果:在情感分析和政治倾向评估中,人类和LLMs都表现出较高可靠性,LLMs内部一致性更强;情感强度方面,LLMs一致性高于人类,但人类对情感强度的评分显著更高;讽刺检测上,两者一致性都低。所有LLMs在各维度都有出色的时间一致性。