人类赋能的大数据分析与分布式匿名化方法
在当今大数据时代,处理和分析海量数据变得至关重要。手动方法效率低下,而自动方法又不够准确,因此在一些场景中,将人类纳入大数据分析过程变得不可避免。同时,数据发布时的隐私保护也面临着新的挑战,传统方法难以应对大数据的处理需求。
人类赋能的大数据分析面临的挑战
在大数据分析中,人类可作为数据来源、整理者或分析者参与其中,但这也带来了一系列挑战。
1. 人员质量问题
- 可信度参差不齐 :人们可能为了获取不公平优势、推广自身利益或贬低不喜欢的事物,而提供低质量的数据贡献。他们可能单独或协作行动,并且由于缺乏专业知识、误解任务或任务设计不佳等原因,也会提交低质量的贡献。
- 训练效果不佳 :以微软的聊天机器人Tay为例,人们用各种厌女和种族主义言论与它交流,不到24小时,Tay就被训练成了一个恶劣的种族主义机器人。这表明低质量的人员训练算法,结果可能毫无用处。
- 人员可用性问题 :众包的按需性质、时间差异以及不同的激励和动机,可能导致某些任务没有贡献者。即使人与机器协作执行任务,人类方面的任何可用性不足或延迟,都可能给大数据分析任务的分解、执行和结果聚合带来严重问题。
- 人员筛选困境 :严格的人员选择标准在一定程度上能保证人员质量,但会减少潜在工人的数量;放松选择条件可能招募更多人员,但任务容易受到低质量贡献、勾结或其他不公平行为的影响。
2. 结果可信度问题
组织依赖大
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



