数据科学中的伦理与发展路径
1. 数据伦理概述
伦理是思考“对”与“错”行为的框架,而数据伦理则是思考涉及数据的正确与错误行为的框架。对于数据伦理,不同人有不同看法。有些人认为它是一套关于数据使用的诫命,有人致力于创建宣言,还有人推动将数据伦理纳入数据科学课程。但奇怪的是,并没有太多数据表明伦理课程能带来符合伦理的行为。
也有人觉得,理性的人在对错的微妙问题上常常会有分歧,数据伦理的重要部分在于承诺考虑自身行为的伦理后果,理解“数据伦理”倡导者不认可的事情,但不一定要认同他们的反对意见。
无论从事什么工作,都应该关心伦理。如果工作涉及数据,可将这种关心称为“数据伦理”,但也应同样关注工作中非数据部分的伦理问题。技术工作的不同之处在于其具有规模效应,个人在技术问题上的决策可能会产生广泛影响。例如,新闻发现算法的微小改变可能导致文章阅读量的巨大差异;有缺陷的假释算法会系统地影响数百万人,而有缺陷的假释委员会仅影响面前的人。
然而,数据伦理的讨论中,有人试图将自己的伦理结论强加给他人,是否关心他们所关心的事情,最终还是取决于个人。
2. 构建不良数据产品引发的伦理问题
一些“数据伦理”问题源于构建不良产品。比如,微软推出的聊天机器人Tay会鹦鹉学舌般重复收到的推文,互联网用户很快利用这一点让它发布冒犯性内容。很可能微软没人讨论过发布“种族主义”机器人的伦理问题,只是构建了机器人却未考虑其被滥用的可能性。
谷歌照片曾使用的图像识别算法有时会将黑人照片分类为“大猩猩”。这极不可能是谷歌有人故意推出此功能,问题可能是由不良训练数据、模型不准确以及错误的冒犯性导致。解决这类问题并不容易,虽然应在多样化输入上训练
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



