第一段:引言 - 十字路口上的数据科学
我(本书作者,宾夕法尼亚州立大学副教授黄君豪 Kenneth Huang)的研究生涯恰好就坐落于这个独特的十字路口。我在卡内基梅隆大学的语言技术研究所(LTI)获得博士学位,这是一个以NLP闻名于世的地方。然而,我的研究兴趣并非纯粹的算法优化,而是更关注一个本质性的问题:语言技术中的“人的问题”(the human problem in language technology)。这意味着我的工作始终围绕两个核心展开:人们如何使用语言技术?我们又该如何创造新的语言技术或能力,以更好地满足人们的真实需求?
这种以人为本的研究哲学,决定了我的团队在过去十年中投入了大量精力去创建各种各样的数据集。在大型语言模型普及之前,构建一个高质量的数据集是推动AI能力边界的几乎唯一途径。而实现这一目标最主流、最有效的方法,便是通过亚马逊的“土耳其机器人”(Amazon Mechanical Turk)等众包平台,将庞大的标注任务分解成无数个微小的单元,分发给全球各地的在线工作者。可以说,我的博士论文,乃至我整个学术生涯的根基,都与如何巧妙地利用“土耳其人”来完成富有创造性和挑战性的数据任务紧密相连。
为了让读者更具体地理解那个“前LLM时代”的数据构建范式,让我们来看两个典型的例子。
第一个是我们早期创建的,也是影响较为深远的一个项目——“视觉故事数据集”(Visual Storytelling Dataset)。在当时,让AI“看图说话”已经取得了一些进展,但我们希望挑战一个更复杂的任务:让AI看完一组连续的图片后,能像人一样创作一个有情节、有逻辑的短篇故事。为了训练这样的模型,我们首先需要人类的范例。于是,我们精心挑选了数万个小型图片序列,然后在众包平台上发布任务,邀请工作者们坐下来,为每一组图片序列构思并写下一个简短的故事。这个过程充满了挑战:如何清晰地传达任务要求?如何评估故事的质量?如何激励工作者发挥创造力?这背后的一切,都是典型的人机交互与数据科学的结合。这个数据集的诞生,直接催生了第一批能够从图像序列生成短篇故事的AI模型。
第二个例子,则更贴近传统的NLP任务,我们称之为**“CoSENT数据集”**。这项工作的目标是让机器能够读懂科研论文的“结构”。我们都知道,一篇论文的摘要(Abstract)通常包含几个固定的功能部分:介绍研究背景(Background)、阐明研究目的(Purpose)、描述研究方法(Method)、展示研究发现(Finding)等。我们设计的任务,就是将论文摘要拆分成独立的句子,然后请众包工作者判断每个句子分别属于哪个类别。这同样不是一个简单的任务,它要求工作者对学术写作有一定的理解力。通过这个项目,我们不仅创建了一个有价值的数据集,更重要的是,我们探索出了一套有效管理和控制众包标注质量的方法论。
这两个例子,连同我们后来为了研究网络虚假信息而创建的“逻辑谬误评论数据集”(要求工作者撰写包含特定逻辑谬误的新闻评论)一样,都遵循着一个共同的、如今看来颇具“古典主义”色彩的工作流程:作为研究者,我们首先要精心设计任务和标注规范,然后将其发送给成千上万的人类工作者,最终在漫长的等待和细致的质量控制后,收获我们宝贵的数据。这个过程,虽然成本高昂且周期漫长,但在超过十年的时间里,它一直是驱动人工智能发展的核心引擎。
然而,大约在两年半前,游戏规则被彻底改变了。
第二段:范式颠覆 - GPT-4 对人类众包的“降维打击”
2022年11月,随着ChatGPT的公开发布,大型语言模型从一个仅限于少数顶尖实验室的“屠龙之技”,瞬间变成了一个人人皆可触及的强大工具。这场技术地震的余波迅速扩散到各个领域,而数据标注这个严重依赖人力的行业,无疑感受到了最直接、最猛烈的冲击。
很快,学术界涌现出了一系列引人注目的研究论文,它们的标题几乎不约而同地传递着一个令人不安的信息。诸如“ChatGPT表现优于众包工作者”、“大型语言模型在标注任务上超越人类”之类的研究结论,如雨后春笋般出现。这些论文通过在各种经典标注任务上的对比实验,似乎都在证明一个颠覆性的事实:那个我们曾经赖以为生的、由人类构成的庞大标注网络,可能在一夜之间就过时了。
想象一下,你是一位在众包领域深耕了十余年的专家。你投入了无数的时间、金钱和心血,自认为已经掌握了这门“与人打交道的艺术”的精髓。突然有一天,一个闪亮登场的新技术被宣告在你的专业领域里可以做得比你更好。你会有何感想?
很自然地,你会进入“否认阶段”(denial phase)。当然,这种否认并非源于顽固或偏见,而是基于众包专家们对这些研究方法论的深刻洞察和合理担忧。他们普遍认为,这些看似“一边倒”的比较,存在着几个关键的、可能导致结论失之偏颇的设计缺陷:
首先,也是最重要的一点,是比较对象的不公。这些研究大多将大型语言模型的表现与“单个的、平均水平的”众包工作者的标注能力进行直接对比。然而,任何一个有过实际数据项目经验的人都知道,众包远非“单个工作者”的简单叠加。它是一个复杂的生态系统,一个精心设计的**“工作流”(Pipeline)**。一个真实的数据标注项目,必然包含一系列环环相扣的质量保障措施:你会分批次发布任务,并在每个批次结束后密切监控数据质量;你会识别出那些表现不佳或敷衍了事的“摸鱼者”,并阻止他们参与后续的任务;你还会为每一个数据点收集多个标签,然后通过特定的算法(如多数投票)进行聚合,以消除个体偏见。将一个高度优化的系统,与系统中的单个、未经筛选的组件进行比较,其结论的公正性自然要打上一个大大的问号。
其次,这些研究的流程设计不切实际。为了达到所谓的“公平比较”,一些研究采用了一些在真实世界中几乎不可能实现的操作。例如,有研究为了剔除表现不佳的标注者,直接使用了整个数据集的“黄金标准答案”(Gold Label)来进行筛选。这对于他们的研究目的——剔除异常值以评估核心群体的能力——或许是合理的,但对于一个正在创建全新数据集的场景来说,这完全是本末倒置。因为在那种情况下,你根本就不存在一个“完整的黄金标准答案”可供参考。你手头仅有的,或许只是项目负责人(通常是博士生)在每个批次中标注的少量样本,用于抽检和质量把控。
最后,一个无法回避的技术问题是数据污染(Data Contamination)的风险。许多用于比较的实验,使用的是早已公开发布的、经典的众包数据集。这就带来了一个巨大的隐患:鉴于大型语言模型的训练语料库极其庞杂,它们很有可能在训练阶段就已经“见过”这些数据集,甚至包含了相关论文的讨论。如果模型只是在“背诵”它记忆中的答案,而非真正进行推理和标注,那么实验结果的有效性就荡然无存了。
作为一名深耕此道的学者,当你对现有研究感到不满时,最好的回应方式就是:亲自设计一个更严谨、更公正的实验,然后写一篇论文来回应它。这些来自众包领域专家的担忧和抱怨,成为了我们下一阶段研究的直接动员令。我们决定,是时候该为“人类众包工作流”正名了。我们不打算再比较单个的人类与机器,而是要将一个经过我们毕生所学优化到极致的、作为一个整体的“人类标注系统”,与GPT-4进行一场真正公平的对决。
第三段:严谨的对决 - 将“众包工作流”作为一个整体与 GPT-4 公平竞赛
要展开这样一场前所未有的对决,首先必须确保赛场的绝对公正。我们面临的首要挑战,便是彻底根除“数据污染”这一幽灵。为此,我们不能使用任何现存的数据集。我们必须从零开始,构建一个全新的、GPT-4在其训练阶段绝无可能接触过的测试基准。
我们的目光投向了生物医学领域,并筛选了200篇在2022年之后发表的学术论文。我们邀请了一位加州大学旧金山分校(UCSF)的生物医学专家,她也是我们最初创建“CoSENT数据集”时的核心参与者,来亲自为这200篇论文摘要中的每一句话进行分类标注。她的标注成果,成为了本次对决中唯一的、至高无上的“黄金标准”(Gold Standard)。这份数据集从未在互联网上公开发布,确保了我们实验环境的纯净性。
有了公正的赛场,接下来便是打磨我们的“人类选手”——那个代表着众包最佳实践的完整工作流。我们深知,影响众包质量的因素纷繁复杂,任何单一的设置都无法代表其全貌。因此,我们决定进行一次系统性的、多变量的探索,将那些在实践中至关重要的环节作为实验的核心变量,以期找到人类协作能力的上限。最终,我们锁定了三大核心变量,它们的排列组合将构成我们多达48种不同的“人类战队”阵型。
核心变量一:交互界面(The Interface)
在人机交互领域,一个众所周知的原则是:工具本身会深刻影响使用者的表现。为了量化这种影响,我们设计了两个截然不同的标注界面。第一个是“基础版”,由我的一位博士生制作。它遵循了最基本的设计原则,功能简单直接,提供了完整的任务说明,但缺少额外的视觉辅助和反馈。工作者只能按部就班地为每个句子选择标签,无法直观地回顾自己的工作。
第二个则是“高级版”,这是我在创建原始CoSENT数据集时亲自设计的版本,它融入了更多旨在提升标注质量的人机交互思考。它不仅在工作者选择标签时提供更丰富的视觉反馈——例如,用红框高亮当前正在标注的句子,并为不同的标签赋予独特的颜色——更关键的是,在任务的最后,它会生成一个“总览视图”。这个视图将整篇摘要的所有句子及其对应的标签并列展示,让工作者可以像审阅文章一样,快速检查自己的标注是否存在明显的逻辑矛盾或不一致之处。这个看似微小的设计,实际上赋予了工作者一种宝贵的“全局意识”,使他们能够进行自我修正。
核心变量二:数据清洗策略(Label Cleaning Strategy)
在真实的大规模众包项目中,总会混入一些表现不佳的工作者。如何识别他们,以及如何处理他们已经提交的数据,是决定最终数据质量的关键。在这个实验中,我们模拟了现实世界中的质量控制流程。我们没有“上帝视角”,无法预知完整的黄金标准答案。取而代之的是,我们要求负责项目的学生在发布每一批任务时,手动标注其中一小部分(例如10个句子)作为该批次的“抽检样本”。
我们利用这些抽检样本,结合一些过程信号——比如,某个工作者与“多数投票”结果的吻合度是否显著低于平均水平——来识别潜在的低质量贡献者。一旦我们决定在第三批任务后将某位工作者移除,一个问题便随之而来:如何处理他/她前两批已经提交的标签?对此,我们测试了三种策略:
- 全部保留(Keep Everything):不作任何处理,保留该工作者提供的所有历史数据。
- 全部移除(Remove All):将该工作者提交过的所有标签从数据集中彻底清除。
- 移除最近批次(Remove Last Batch):一种折中方案,只移除该工作者在最近一个批次中提交的数据。
核心变量三:标签聚合算法(Label Aggregation Method)
为了最大程度地消除个体偏见,我们为每一个句子都收集了来自20位不同众包工作者的独立标注。在实践中,收集3到5个标签通常就足够了,但为了进行更深入的学术探索,我们选择了20这个较高的数字。当面对同一个句子,20个人可能给出五花八门的答案时,我们该如何决定最终的“正确”标签呢?
最简单的方法是“多数投票”(Majority Vote),但这往往不是最优解。为此,我们引入了一个由业界(Toloka公司)开发的开源工具包crowd-kit,它集成了多种更先进的标签聚合算法。这些算法,如MACE和1-coin模型,不仅仅是简单地数票数,它们会尝试对每个工作者的可靠性进行建模,赋予那些历史上表现更可靠的工作者更高的“投票权重”。我们从中选取了包括多数投票在内的八种最具代表性的算法进行测试。
至此,我们的实验矩阵已经成型:2种交互界面 × 3种数据清洗策略 × 8种标签聚合算法 = 48种截然不同的“众包工作流”组合。我们投入了大量的资源,细致地执行了每一个组合,并将它们各自产出的最终标注结果,与我们那位生物医学专家的“黄金标准”进行比对,计算出准确率。
在一次公开演讲中,当讲到这里时,台下有位听众敏锐地提出了一个极为现实的问题:“做完这一切花了多少钱?与直接调用GPT-4的API相比成本如何?”
这是一个无法回避的问题,答案也十分明确:我们精心设计的这套人类众包流程,其成本远非GPT-4可比。无论是付给众包工作者的薪酬,还是项目管理者投入的时间和精力,都比编写几行代码调用API要高出几个数量级。尤其是在今天,随着大模型API价格的持续下降,这种成本差距只会越来越悬殊。
这也让我们的对决充满了悬念。我们付出了如此高昂的代价,动用了几乎所有已知的众包优化技巧,我们这48套“人类顶配战队”,究竟能否在质量上证明自己的价值,战胜那个既便宜又强大的AI对手呢?
第四段:意外的结局与新的启示 - 从“人机对抗”到“人机融合”
当所有实验数据汇集到一起,我们绘制出最终的结果图表时,一个清晰而又令人稍感沮丧的画面呈现在我们眼前。图表的Y轴代表标注的准确率,X轴则代表用于聚合的标签数量(从1到20)。图上跃动着48条代表不同人类工作流组合的曲线,而在这些曲线的上方,一条近乎水平的直线,代表着GPT-4的准确率,像一道难以逾越的天花板,冷峻地悬停在那里。
在我们的48种精心调校的设置中,没有任何一种,能够在纯粹的人类协作模式下,达到或超越GPT-4的准确率。 我们确实已经非常、非常接近了。表现最好的几种人类工作流组合,其准确率与GPT-4仅相差一线,但终究未能实现反超。
这个结果,一方面验证了大型语言模型在处理这类结构化标注任务上的强大实力,但另一方面,也似乎给“人类众包”的未来蒙上了一层阴影。然而,就在我们对这个结果进行深入讨论的学术交流会上,另一位听众的一个提问,如同一道闪电,瞬间照亮了一条全新的、我们此前从未设想过的道路。他问道:
“你们一直将人类和GPT-4视为对手。如果换个思路,把GPT-4当作一名能力超群的、额外的众包工作者,把它也加入到你们的聚合流程中,结果会怎样?”
这个问题彻底改变了我们研究的范式,将它从一场“人机对抗”的零和博弈,转变为探索“人机融合”的协同创造。我们立刻付诸实践:将GPT-4对每个句子的标注结果,视为来自第21位“超级标注员”的投票,然后将其与我们收集到的20个人类标签一同输入到那八种聚合算法中。
结果令人振奋。当我们将“人机混合”后的新准确率曲线绘制出来时,奇迹发生了。在大多数情况下,加入GPT-4的投票都能提升原有的准确率。而最关键的突破在于,在两种特定的聚合算法(MACE和1-coin)下,人机混合团队的准确率曲线,成功地向上刺穿了那道代表GPT-4个人表现的“天花板”! 虽然超越的幅度不大,但这无疑是一个里程碑式的成功。
然而,这个“1+1 > 2”的协同效应并非无条件发生的。当我们对数据进行更深层次的剖析时,一个更为深刻的启示浮出水面。这个超越GPT-4的成功,只发生在一个特定的前提下:当人类工作者使用的是我们设计的那个“高级版”交互界面时。 在使用“基础版”界面的那一组实验中,即便是加入了GPT-4的强大助力,其最终的准确率也依然未能超越GPT-4的单兵作战水平。
这个发现,是整个研究中最具价值的洞见。它雄辩地证明了,未来人机协作成功的关键,不在于简单地将人类和AI“堆”在一起,而在于如何通过更优秀的工具来赋能人类。那个“高级版”界面,通过提供更好的视觉反馈和全局概览,有效地帮助人类工作者减少了错误,提升了他们标注的一致性和质量。正是这份由人类贡献的、更高质量的“数据基底”,才为GPT-4的加入创造了实现“画龙点睛”效果的条件。当人类的输入质量本身较低时,AI的加入也无力回天。
因此,这场严谨对决的最终答案并非“谁更强”,而是揭示了一条通往更高境界的道路。人类在数据标注领域的角色不会消失,但其价值重心将从提供“原始劳动力”转变为提供“高质量的、经过工具赋能的智慧判断”。我们的目标,不应再是训练人类去追赶机器,而应是设计更好的工具,让人类能够与机器并肩,共同达到任何一方都无法企及的新高度。
第五段:新大陆的迷雾 - “在黑暗中提示”的崛起与隐忧
“在黑暗中提示”(Prompting in the Dark)这个略带神秘色彩的术语,是我们用来描述一种新兴数据标注工作模式的概括。这种模式的崛起,与大型语言模型(LLM)本身所具备的“即时反馈”和“快速迭代”特性密不可分。让我们具体描绘一下这个流程:
一位开发者或研究者需要为一个特定的任务标注一批数据,比如,判断用户评论的情感倾向。在过去,他需要先定义清晰的标注指南,然后发布任务,等待结果。但现在,他可以直接打开一个语言模型的界面,开始编写一个提示(Prompt)。这个提示可能很简单,例如:“请将以下推文分类为‘非常积极’、‘积极’、‘中性’、‘消极’或‘非常消极’。这是第一条推文:[…]”。
模型会立刻返回一个结果。开发者看了一眼,觉得“嗯,这个还行”。他输入第二条,模型又给出一个结果。这次他可能觉得“不对,这条应该被标为‘中性’,而不是‘消极’”。于是,他不会去创建一个复杂的评估集,而是直接修改他的提示,可能会在其中加入一条更明确的规则,比如:“注意,仅仅提到产品的某个缺点,但语气平和的评论应被视为‘中性’”。
然后,他用这个新提示重新处理刚才那条不满意的推文,模型给出了“中性”的答案。他满意了,于是继续用这个更新后的提示去处理下一批数据。他会随机抽取几条模型的输出看一看,凭着自己的“感觉”和“经验”,判断当前的提示是否“足够好”。如果感觉对了,他就用这个最终版的提示,一次性处理成千上万条数据,然后直接将结果用于下游的模型训练或分析。
这个过程,我们称之为“在黑暗中”,是因为它几乎完全依赖于操作者主观的、即时的判断,而缺乏一个客观、稳定、可供参照的“黄金标准”数据集来进行系统性的评估。这就好比在一片没有路标和导航的黑暗旷野中驾驶,你唯一能依赖的,就是车灯所能照亮的前方那一小片区域,以及你个人对方向的直觉。
这种工作模式之所以迅速流行,原因显而易见:它快得惊人,而且成本极低。相比于传统众包流程中漫长的周期和高昂的费用,这种“即时反馈、快速迭代”的循环几乎是零成本的。我们甚至在一些已发表的学术论文中观察到,研究者们在描述他们如何使用LLM构建数据集时,也采用了这种“凭感觉校调”(vibe-based labeling)的方式,而并未报告任何基于黄金标准的量化评估结果。
这一现象引发了我们深刻的思考。在此前的研究中,我们主要探讨了人类在数据标注中扮演的两种角色:作为质量的贡献者(通过精细标注超越机器)和作为多样性的来源(提供机器难以合成的、富有变化的创意内容)。而“在黑暗中提示”的兴起,则将我们的注意力引向了人类的第三重价值——个性化与用户主导权(Personalization and User Agency)。
在这个新范式中,用户不再是被动遵循预设规则的标注者,而是成为了规则的定义者和塑造者。他/她的个人理解、偏好和标准,通过不断修改提示,被直接注入到了最终的数据集中。例如,对于“情感分析”这个看似简单的任务,不同的人可能有截然不同的标准。有人可能认为任何包含负面词汇的评论都应标记为“消极”,而另一些人则可能认为,只有那些明确表达了不满情绪的才算数。在“黑暗中提示”的模式下,用户可以轻松地将模型“调教”成符合自己独特标准的样子。这无疑赋予了用户前所未有的主导权。
然而,这种主导权也伴随着巨大的风险。传统的数据标注流程,无论是众包还是专家标注,都有一套机制来确保一致性和可靠性,其中最重要的就是利用黄金标准进行持续的质量监控。这种机制就像是驾驶时的导航系统,它会告诉你是否偏离了预定的路线。而“在黑暗中提示”则完全拆除了这个导航系统。
一个核心的问题油然而生:人类的直觉,真的可靠吗? 尽管许多软件测试和人因工程的文献早已反复告诫我们,不应过度依赖无指导的探索式评估,但在LLM带来的强大赋能感面前,人们似乎倾向于相信这次会有所不同。
为了系统性地研究这种行为,并回答上述问题,我们必须先为这种“黑暗驾驶”模式打造一个可供观察和实验的“驾驶舱”。为此,我们开发了一个名为**“Prompting Sheet”**的软件原型。它是一个基于Google Sheets的插件,旨在将“在黑暗中提示”这一略显混乱的流程,变得更加结构化、可追溯。
“Prompting Sheet”的设计理念是,将构成一个完整提示的各个要素清晰地分离开来,让用户可以在一个熟悉的、类似电子表格的环境中进行操作。它主要包含以下几个工作表:
- 数据全集(Full Dataset):存放所有待标注的原始数据。
- 任务上下文(Task Context):用户可以在这里写明标注任务的背景、目的和数据的来源等元信息。
- 规则手册(Rulebook):这是定义标注规范的核心区域,用户可以为每一个标签(如“积极”、“消极”)写下明确的定义和规则。
- 少量样本(Shots):这是实现“少样本学习”(Few-shot Learning)的地方。用户可以手动添加一些典型的“问题-答案”对,作为给模型的具体示例。
当用户准备进行一次标注时,“Prompting Sheet”会自动将“上下文”、“规则手册”和“少量样本”中的内容整合成一个结构化的、完整的提示,发送给语言模型。模型返回的标注结果,连同本次使用的完整提示,会被保存在一个新建的工作表中。这样一来,用户的每一次迭代——无论是修改了一条规则,还是增加了一个样本——都会被完整地记录下来,形成一部清晰的“提示进化史”。
通过这个工具,我们得以将“在黑暗中提示”这一行为从一种模糊的实践,转变为一个可以被严谨研究的对象。我们的核心研究问题也因此变得更加清晰:在没有任何外部黄金标准作为参照的情况下,用户通过与LLM进行多轮迭代,是否真的能够系统性地提升标注结果的质量,使其更符合用户自己内心的标准? 换言之,这场在黑暗中的驾驶,最终会将我们引向目的地,还是只是在原地打转?
第六段:直觉的陷阱 - 揭示“黑暗中提示”的低效真相
为了回答这个核心问题,我们设计并进行了一项用户研究。我们招募了20位参与者,让他们使用我们开发的“Prompting Sheet”工具,来完成一项真实但又充满主观性的标注任务:对一批与新冠疫情(COVID-19)相关的推文进行五分类情感标注(从“非常积极”到“非常消极”)。
这项任务的选择本身就体现了我们对“用户主导权”的关注。关于疫情的言论,情感的解读往往因人而异。一条看似中立的关于口罩政策的推文,在不同立场的人看来,可能会引发截然不同的情感共鸣。因此,这项任务不存在一个统一的“正确答案”,每一位参与者自己内心的标准,就是我们最终评估的“黄金标准”。
研究的流程如下:参与者首先会接受一个简短的教程,熟悉“Prompting Sheet”的操作。然后,他们会进入主任务阶段,我们会提供一个初始的、较为通用的提示作为起点。参与者需要至少进行四轮的迭代:他们用当前的提示标注一批抽样数据,观察模型的输出,然后根据自己的判断修改提示(调整规则、增删样本等),再进行下一轮标注。他们可以迭代更多次,直到他们认为当前的提示已经能够很好地体现自己对情感分类的理解为止。
在整个迭代过程结束,也就是当参与者对自己的最终版提示感到满意后,我们会请他们完成最后一步,也是最关键的一步:亲自坐下来,为50条推文进行手动标注。这50条推文,就是我们用来评估他们整个迭代过程效果的“个人黄金标准”。我们想知道的是,他们通过多轮“黑暗提示”最终得到的那个模型,其标注结果与他们自己亲手标注的结果,吻合度究竟有多高?迭代的过程,是否真的让模型越来越“懂”他们了?
实验结果令人大吃一惊,甚至可以说是颠覆了我们对这种模式有效性的初步设想。
惊人发现一:平均而言,迭代并未带来显著的质量提升。
当我们计算了所有参与者从初始提示到最终提示的准确率(与他们自己的黄金标准相比)和均方误差(Mean Squared Error, MSE)的变化后发现,从整体平均水平来看,准确率只有微乎其微的提升,且不具备统计显著性;而均方误差则几乎没有任何变化。这意味着,尽管参与者们都认真地进行了多轮修改,感觉上自己在不断“优化”提示,但从客观结果来看,他们的努力在很大程度上只是“原地踏步”。模型并没有因为这些迭代而变得更符合他们的标准。
惊人发现二:能看到更多样本,确实有帮助。
在实验设计中,我们还引入了两个变量来探究可能影响迭代效果的因素。其中一个变量是“每轮可供观察的样本量”。一半的参与者在每次迭代后能看到10条模型的标注结果,另一半则能看到50条。结果显示,那些每轮能观察50个样本的参与者,其准确率的提升幅度虽然依旧微小,但系统性地优于那些只能看10个样本的参与者。这个结论符合直觉:你能获得的信息越多,你做出的调整就可能越有根据。
最意外的发现:模型的“解释”不仅无益,甚至有害。
另一个,也是更引人深思的变量是“是否向用户展示模型的解释”。我们让语言模型在给出标注结果的同时,也生成一句简短的解释,说明它“为什么”会做出这个判断。例如,“这条推文被标为‘消极’,因为它包含了‘失败’和‘灾难’等负面词汇”。然后,我们将参与者分为两组:一组能看到这些解释,另一组则看不到。
我们最初的假设是,这些解释能够帮助用户更好地理解模型的“思维方式”,从而做出更精准的提示调整。然而,实验结果却与我们的预想完全相反。数据显示,那些看到了模型解释的参与者,其最终的标注准确率反而系统性地下降了!
这个反直觉的结果揭示了一个深刻的心理学陷阱。我们推测,语言模型生成的那些看似合理、逻辑自洽的解释,很可能对人类用户产生了一种“过度说服”效应。当用户看到一个自己不认同的标注结果,但紧接着又读到一段由AI“权威”地给出的、听起来头头是道的解释时,他们可能会开始怀疑自己的判断,甚至被误导,从而对提示进行了错误方向的修改。换句话说,模型的“花言巧语”不仅没能帮助用户,反而可能干扰了他们对自己内心标准的坚守。
这项研究的结论是清晰而有力的:“在黑暗中提示”这种完全依赖直觉的工作模式,其效率远比人们想象的要低。它充满了陷阱,简单的迭代并不能保证质量的提升,而一些看似有益的辅助信息甚至会起到反作用。直觉,在这片黑暗的旷野中,是一个并不可靠的向导。
第七段:结语 - 回归黄金标准,拥抱混合智能
综合以上所有发现,我们可以提炼出三条核心原则,它们或许能成为我们在大型语言模型时代进行数据工作的“北极星”。
原则一:黄金标准不可或缺——为你的“黑暗驾驶”点亮灯塔
我们关于“在黑暗中提示”的研究,最响亮、最明确的结论便是:直觉是不可靠的,黄金标准(Gold Standard)依然至关重要。
这并非是要我们倒退回过去那种动辄构建数万条黄金样本的“重工业”模式。恰恰相反,LLM的出现让我们有机会以一种更“聪明”的方式来利用黄金标准。我们不再需要用它来从零训练一个模型,而是可以将其作为一个高效的、轻量级的“校准工具”和“导航系统”。
想象一下,你只需要投入少量精力,创建一个包含几十或几百个高质量、高代表性样本的黄金标准集。这个小而精的数据集,便足以在你的“黑暗驾驶”旅程中扮演不可或EDF0替代的角色:
- 作为评估的基石:在你进行多轮提示迭代时,它可以为你提供一个客观、量化的反馈,告诉你每一次修改是让结果变好了还是变糟了。这能让你从“凭感觉”的迷雾中解脱出来,进行真正有方向的优化。
- 作为决策的依据:回顾我们的第一项研究,我们在48种不同的人类工作流组合中,最终只有两种在与AI融合后取得了超越性的成功。如果你拥有一个小型黄金标准集,你就可以用它快速测试不同的方法论(例如,不同的聚合算法、不同的提示策略),迅速找到最有希望的路径,然后再进行大规模的部署,从而避免大量的无效投入。
因此,在LLM时代,“黄金标准”的价值非但没有过时,反而变得更加聚焦和关键。它就像是远航时的灯塔,虽然我们不再需要沿着海岸线一寸一寸地航行,但它的光芒能确保我们在广阔的海洋中不会迷失方向。
原则二:人类的角色更加精妙——从“执行者”到“赋能者”
我们的研究清晰地表明,人类在数据标注领域的价值链正在向上游移动。我们不再是简单的“标签执行者”,而是转变为更复杂的角色。
首先,我们是高质量智慧的贡献者。第一项研究中,“高级版”界面的成功告诉我们,人类贡献的质量直接决定了人机协作的上限。当人类能够在一个被精心设计的环境中工作时,他们所提供的细致判断和领域知识,是AI实现“画龙点睛”效果的基石。
其次,我们是系统的设计者和赋能者。未来的核心挑战,不再是如何管理成千上万的标注工人,而是如何设计出更优秀的工具、界面和流程,来最大化地激发和利用人类的智慧。这正是人机交互(HCI)学科将在AI时代扮演越来越重要角色的原因。我们需要思考,如何让人机对话更高效?如何将复杂的标注任务可视化?如何帮助人类更好地理解和校准AI的行为?
为了更具体地说明这种新型的人机协作关系,我想分享我们近期正在进行的一个项目案例——“Coco-l-Lofa项目”。这个项目的目标是创建一个用于检测和分类“逻辑谬误”的数据集。我们要求众包工作者阅读一篇新闻文章,然后撰写一条包含了特定逻辑谬误(如“稻草人谬误”或“人身攻击”)的评论。
这是一个极具挑战性的创意写作任务,远比简单的分类要困难。我们发现,许多工作者很难独立完成。于是,我们在标注界面中嵌入了一个由大型语言模型驱动的“写作助手”。当工作者卡壳时,他们可以点击一个按钮,AI会提供一些写作建议或范例。
这个设计带来了显著的成效。它不仅极大地提升了任务的完成率和最终产出评论的质量,更重要的是,我们发现这种由**“人类主导、AI辅助”模式生成的数据,在多样性**上远胜于纯粹由AI合成的数据。人类作者会带来他们独特的视角、用词习惯和文化背景,而AI则负责扫清创意路上的障碍。这种模式,既利用了AI的强大能力,又保留了人类创造力的宝贵火花。这或许正是未来许多高认知复杂度数据创建任务的理想范式。
原则三:数据集创建的范式正在演变——从“燃料”到“试金石”
长期以来,我们创建数据集的核心目的,是为模型提供学习的“燃料”。我们遵循着“训练集-验证集-测试集”的经典划分,数据集的规模越大,似乎就越好。然而,在LLC时代,这一根本逻辑正在发生动摇。
随着基础模型(Foundation Models)变得日益强大,我们可能不再需要为每一个特定任务都去从零开始构建庞大的训练集。未来的数据集创建,其重心很可能会从“提供燃料”转向“打造试金石”。这意味着:
- 更注重测试集(Test Sets):我们可能会看到越来越多不包含训练集,只包含一个高质量、高难度测试集的数据项目。它们的目标不再是“教会”模型什么,而是“拷问”模型的能力边界,评估它们在特定、关键或危险场景下的表现。
- 追求极致的质量和难度:未来的数据集竞赛,将不再是比拼谁的规模更大,而是比拼谁的问题更有挑战性,谁的标注更精准无误,谁的场景覆盖更全面。
这个转变,也让我们重新思考一个根本性的问题,这个问题在我的演讲和课堂上被反复问及:“在未来,我们为什么还需要持续不断地创建新的数据集?”
我的回答是,至少在可预见的未来,高质量、领域特定的数据集仍然是我们约束和塑造AI行为最有效的工具。如果你在运营一项严肃的商业业务,比如金融风控或医疗诊断,你绝不能容忍一个“黑箱”模型随心所欲地输出。你需要一个能够精准反映你业务逻辑和风险偏好的数据集,来对模型进行微调(Fine-tuning)、评估和持续监控,确保它的行为稳定、可靠且符合预期。从这个角度看,数据集将从模型的“老师”,转变为模型的“行为契约”和“质量准绳”。
最后的思考:一场跨越三十年的辩论
在讲座的问答环节,有学生提出了一个更宏大、也更具哲学意味的问题:我们应该如何看待人类与AI的终极关系?
这让我想起了人机交互领域一场跨越三十年的经典辩论。辩论的一方是“直接操控”理论的旗手本·施耐德曼(Ben Shneiderman),他坚信计算机和AI应该永远是增强人类能力的**“工具”(Tools),人类应当始终处于主导和控制的地位。另一方则是“软件智能体”的先驱帕蒂·梅斯(Pattie Maes),她认为AI可以发展成为自主的“代理”(Agents)**,代表我们去完成复杂的任务。
三十年前,这场辩论似乎更偏向于理论探讨。但今天,随着大型语言模型的普及,它已经成为了我们每个人都必须面对的现实抉择。在我的研究和思考中,如果必须选择一个立场,我更倾向于施耐德曼的“工具”观。我更感兴趣的,不是如何构建一个能全自动写出伟大故事的AI,而是如何设计一个工具,能帮助一位才华横溢的作家,写出他/她自己心中那个更伟大的故事。
我坚信,技术的最终价值,在于它如何服务于人的目标、放大人的创造力、体现人的能动性。无论是数据标注,还是更广阔的人机协作领域,我们关注的焦点,都不应仅仅是“机器能做什么”,而更应该是“我们希望与机器共同完成什么”。
当然,我也必须承认,我们今天所有的讨论,包括我进行的实验,都存在一个巨大的局限性——它们几乎完全是以英语为中心的。无论是众包平台的主流语种,还是大型模型的优势能力,都严重偏向英语世界。如何将我们今天探讨的这些原则和方法,有效地应用于其他语言和文化环境中,将是摆在全世界研究者面前的一个巨大挑战,也是一片充满机遇的广阔蓝海。
旅程至此,我们已经从一个具体的技术问题出发,最终抵达了关于人、技术与未来的广阔思考。前方的道路依然充满未知,但希望本章所提供的地图和指南针,能够帮助每一位读者,在这场激动人心的变革浪潮中,更清晰地看清自己的位置,更自信地迈出下一步。

被折叠的 条评论
为什么被折叠?



