LLMs 能否胜任「数据标注」？机遇与挑战并存

编者按： 目前，LLMs 在机器翻译、文本生成、多轮问答等任务上已表现得非常出色了。人们开始思考它们是否也可以用于数据标注工作。数据标注是训练和评估各种机器学习模型的基础，一直是一项昂贵且耗时的工作。是否能够借助 LLMs 的强大能力来为数据标注流程降本增效呢？本文深入探讨了这一问题。

本文作者从业界最新研究入手，全面评估了 LLMs 在数据标注领域的应用前景。文章指出，在某些场景下使用 LLMs 确实可以加快标注流程、降低成本，但也需要注意 LLMs 存在一些局限性，如对提示词的高度敏感性、不能支持多种人类语言符号，以及难以模拟人类的内在推理逻辑等。因此，我们不能期望 LLMs 完全取代人工标注，特别是在涉及需要主观判断或敏感内容的领域。

本文立足前沿，观点中肯，为 LLMs 在数据标注领域的应用前景勾勒出了轮廓，同时也直面了其短板，启发读者理性审视这一新兴技术在实践中的利弊权衡，为未来研究和实践提供了极有价值的思路，对于推动人工智能技术在数据标注领域的良性发展具有重要意义。

本文旨在提供一份简单易懂的技术总结，介绍有关使用 LLMs 对数据进行标注的研究。我们将探讨当前关于使用 LLMs¹ 标注文本数据的观点，以及在实践中使用该技术方案时需要注意的事项。

文章总览：

为什么使用 LLMs 进行数据标注？
当前业界主流观点
使用 LLMs 进行数据标注时需要注意哪些事项
Summary | TL;DR

Source: Pexels

为什么使用 LLMs 进行数据标注？

高质量的标注数据是训练和评估各种机器学习模型的基础。 目前，最常见的数据标注方法是雇佣众包工人（例如 Amazon Mechanical Turk），或在涉及专业知识时雇佣相关领域专家。

这些方法可能相当昂贵且极其耗时，因此很多人开始想了解是否可以使用 LLMs 完成数据标注工作。对于预算有限的企业，可以通过构建满足其特定需求的专用数据标注模型（specialised models）来完成数据标注需求。在医学等较为敏感的领域，可以通过让相关领域专家审查和修正 LLM 的标注内容来加快标注流程，而不是从头开始进行数据标注。

此外，卡内基梅隆大学（Carnegie Mellon）和谷歌（Google）的研究人员还发现，保护人工标注者免受标注过程中（例如仇恨言论）造成的心理伤害，以及保证数据中观点的多样性，也是行业推动使用 LLMs 进行数据标注的动机之一。