Evaluating Large Language Models Against Human Annotators in Latent Content Analysis

UnknownBody

于 2025-03-30 08:30:00 发布

阅读量31

点赞数

分类专栏： LLM Daily LLM Evaluation 文章标签：语言模型人工智能网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/146477930

版权

LLM Daily 同时被 2 个专栏收录

1271 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

85 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

主要内容

研究背景与目的：数字化时代产生大量文本数据，潜在内容分析意义重大，大语言模型（LLMs）可实现分析自动化，但缺乏多维度与人类标注者对比评估。本研究旨在对比LLMs与人类标注者在情感、政治倾向、情感强度和讽刺检测方面的可靠性、一致性和质量，提出四个研究问题。
研究方法：选取33名精通英语的人类标注者和7种前沿LLMs（8种变体），对100条精心挑选的文本进行标注。文本涵盖情感、政治倾向、情感强度和讽刺检测四个维度，每个维度25条。人类标注者依据详细说明在Likert 5分制量表上进行标注；为LLMs设计标准化提示，让其按相同量表评估。使用多种统计软件，通过计算Krippendorff’s alpha评估评分者间信度，计算组内相关系数（ICC）评估LLMs随时间的一致性，进行t检验和方差分析（ANOVA）对比LLMs与人类标注者的分析质量。
研究结果：在情感分析和政治倾向评估中，人类和LLMs都表现出较高可靠性，LLMs内部一致性更强；情感强度方面，LLMs一致性高于人类，但人类对情感强度的评分显著更高；讽刺检测上，两者一致性都低。所有LLMs在各维度都有出色的时间一致性。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。