当机器学习遇见“众包”——访微软雷德蒙研究院首席研究员周登勇

众包模式被广泛应用于机器学习的训练数据准备工作中,通过非特定大众网络进行数据标记,有效提升工作效率并降低成本。本文探讨了众包在保证数据质量方面的挑战,并邀请微软首席研究员周登勇博士分享关于如何利用众包创建高质量数据库的观点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

提到众包,想必大多数人都不陌生,“一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。”这一概念由美国《连线》杂志的记者杰夫·豪(Jeff Howe)在 2006 年 6 月提出,众包模式的出现极大的提升了企业工作效率而且大幅降低成本。

人工智能时代即将来临,作为实现人工智能的重要方法,机器学习开始受到广泛关注。训练机器学习系统需要大量的带标签数据,实现诸如语音识别及图片分类等功能,比如将带有花朵的图片与“花朵”这个词语捆绑起来。传统基于专家的数据标记缓慢而昂贵,基于此,机器学习开始与众包模式相融合,后者成为了当今获取标记数据的基本手段。

尽管听起来非常简单,但如何利用众包打造机器学习的高品质数据库远不是一件简单的事情。众包背后涉及哪些技术?怎样保证数据精准?带着这些问题,我们采访了美国微软雷德蒙研究院首席研究员周登勇博士,就众包与机器学习融合中的一些问题进行了请教。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值