阅读笔记 Vox Populi: Collecting High-Quality Labels from a Crowd

作者 Ofer Dekel H-27 有多篇关于 Crowdsourcing 中 labeler 和 Active leanring 的文章。

这篇文章主要是考虑:训练一个分类器,从而删去一部分低质量的工人。论文中假设每个example 只接受一个样例,每个工人只标记较少数量的 example 。

其实际的算法其实还是通过通过训练好的分类器来判定工人所给的标记是否正确,从而将那些高错误率的工人删去(该工人提供的数据全部弃用),起到 clean data 的作用。

个人认为论文的贡献主要在于: 从理论上分析了通过 由分类器给出的伪标记作为 ground truth 来判定工人的精度,的确可以找出那些低质量的工人。不同于 Learn from crowd 文章,其最终目的不是为了得到一个高精度的分类器,而是删去低质量的工人,从大量的噪音数据中得到 cleaned data,但是否数据的分布发生了改变,还能否学到原始分布 D 上的分类器,论文没有考虑。

论文中的理论分析假定了工人数量和样例数量趋于无穷,在这种情形下,那些被差的工人标记的 x 被丢弃,不会对分类器 f 的学习造成很大影响。

该 paper 用到了 一个 smart twist( small modification): splitting the data in two and using each half to clean the other。这是将 example set $S$ 划分为 $S_1$ 和 $S_2$,用工人在 $S_1$ 上的表现来决定工人在 $S_2$ 上的label 是否保留。

 

转载于:https://www.cnblogs.com/Gelthin2017/p/10405344.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值