编者按: 目前,LLMs 在机器翻译、文本生成、多轮问答等任务上已表现得非常出色了。人们开始思考它们是否也可以用于数据标注工作。数据标注是训练和评估各种机器学习模型的基础,一直是一项昂贵且耗时的工作。是否能够借助 LLMs 的强大能力来为数据标注流程降本增效呢?本文深入探讨了这一问题。
本文作者从业界最新研究入手,全面评估了 LLMs 在数据标注领域的应用前景。文章指出,在某些场景下使用 LLMs 确实可以加快标注流程、降低成本,但也需要注意 LLMs 存在一些局限性,如对提示词的高度敏感性、不能支持多种人类语言符号,以及难以模拟人类的内在推理逻辑等。因此,我们不能期望 LLMs 完全取代人工标注,特别是在涉及需要主观判断或敏感内容的领域。
本文立足前沿,观点中肯,为 LLMs 在数据标注领域的应用前景勾勒出了轮廓,同时也直面了其短板,启发读者理性审视这一新兴技术在实践中的利弊权衡,为未来研究和实践提供了极有价值的思路,对于推动人工智能技术在数据标注领域的良性发展具有重要意义。
本文旨在提供一份简单易懂的技术总结,介绍有关使用 LLMs 对数据进行标注的研究。我们将探讨当前关于使用 LLMs¹ 标注文本数据的观点,以及在实践中使用该技术方案时需要注意的事项。
文章总览:
- 为什么使用 LLMs 进行数据标注?
- 当前业界主流观点
- 使用 LLMs 进行数据标注时需要注意哪些事项
- Summary | TL;DR

Source: Pexels
01
为什么使用 LLMs 进行数据标注?
高质量的标注数据是训练和评估各种机器学习模型的基础。 目前,最常见的数据标注方法是雇佣众包工人(例如 Amazon Mechanical Turk),或在涉及专业知识时雇佣相关领域专家。
这些方法可能相当昂贵且极其耗时,因此很多人开始想了解是否可以使用 LLMs 完成数据标注工作。对于预算有限的企业,可以通过构建满足其特定需求的专用数据标注模型(specialised models)来完成数据标注需求。在医学等较为敏感的领域,可以通过让相关领域专家审查和修正 LLM 的标注内容来加快标注流程,而不是从头开始进行数据标注。
此外, 卡内基梅隆大学(Carnegie Mellon) 和 谷歌(Google)的研究人员还发现,保护人工标注者免受标注过程中(例如仇恨言论)造成的心理伤害,以及保证数据中观点的多样性,也是行业推动使用 LLMs 进行数据标注的动机之一。
02
当前业界主流观点
关于 LLMs 是否有潜力成为优秀的数据标注工具,各项研究的意见不一。虽然一些研究对其能力持乐观态度,但也有一些研究持怀疑态度。表 1 概述了十二项相关研究的研究方法和研究结论。您可以在本文末尾的参考文献中找到这些内容的出处。

表 1 — z: zero-shot,f: few-shot,z&f: zero&few-shot;en+: 主要为英文语料 | 图片由原文作者提供
2.1 模型²
表 1 中的 Model Families 列元素数量显示 —— 大多数研究只测试了一个 Model Families。查看使用的具体模型可以发现,除了研究[7][11]外,几乎所有研究都使用了 GPT。研究[7]是唯一****专注于探索开源 LLMs 的研究(见表2)。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



