Evaluating Large Language Models Against Human Annotators in Latent Content Analysis

主要内容

  1. 研究背景与目的:数字化时代产生大量文本数据,潜在内容分析意义重大,大语言模型(LLMs)可实现分析自动化,但缺乏多维度与人类标注者对比评估。本研究旨在对比LLMs与人类标注者在情感、政治倾向、情感强度和讽刺检测方面的可靠性、一致性和质量,提出四个研究问题。
  2. 研究方法:选取33名精通英语的人类标注者和7种前沿LLMs(8种变体),对100条精心挑选的文本进行标注。文本涵盖情感、政治倾向、情感强度和讽刺检测四个维度,每个维度25条。人类标注者依据详细说明在Likert 5分制量表上进行标注;为LLMs设计标准化提示,让其按相同量表评估。使用多种统计软件,通过计算Krippendorff’s alpha评估评分者间信度,计算组内相关系数(ICC)评估LLMs随时间的一致性,进行t检验和方差分析(ANOVA)对比LLMs与人类标注者的分析质量。
  3. 研究结果:在情感分析和政治倾向评估中,人类和LLMs都表现出较高可靠性,LLMs内部一致性更强;情感强度方面,LLMs一致性高于人类,但人类对情感强度的评分显著更高;讽刺检测上,两者一致性都低。所有LLMs在各维度都有出色的时间一致性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值