数据科学家的偏差与数据引入的偏差解析
1. 抽样中的确认偏差
算法偏差的一个主要来源是样本所涵盖的时间段选择过短。例如,假设过去一年能代表未来,这就是一种稳定性偏差。对算法进行多年测试,比如在信用评分的情况下,涵盖经济增长期和衰退期,能让统计过程更好地检验数据科学家的假设并发现偏差。
有一个例子能很好地说明这个陷阱。在2007年全球金融危机之前,有人构建了一个抵押贷款信用评分算法,将该地区近期房价上涨作为输入,这从根本上是一个合理的假设和明智的变量。然而,构建该模型的数据科学家认为房价会一直上涨,这是可用性偏差的典型例子,可能影响那些从未实际观察过房价下跌的年轻数据科学家。由于这种偏差,数据科学家对房价变化应用了一种数学变换,这种变换甚至不适用于房价下跌的情况。根据实施中的技术选择,这样的模型要么会抛出错误(这会发出警告信号),要么在房价下跌时假设房价持平(甚至可能是正增长)。也就是说,即使有相反的证据输入到方程中,算法最终可能“假设”房价不会下跌。
样本还可能以其他多种方式产生偏差。将样本限制在代表单一特定经济体制的相对较短时期是一种情况;将其聚焦于特定人群细分也是一种情况。这里的可用性偏差可能具有毁灭性。例如,人们普遍认为毒品成瘾,这一信念基于大量学术研究。但当研究人员进行一项纵向研究,对参与者进行了数十年的跟踪后发现,大多数吸毒者在某个时候会因为自己的决定(如想找工作、结婚或生孩子)而停止吸毒,这令人惊讶。原来,大多数关于吸毒成瘾的研究都是针对心理学家最容易接触到的人群——那些无法自行戒除毒瘾而寻求精神或医疗帮助的临床吸毒者群体。由于可用性偏差,许多关于吸毒成瘾的研究都是在一小部分吸毒者身上进行的,从而导致对这个问题的认知非常片面。
超级会员免费看
订阅专栏 解锁全文

2480

被折叠的 条评论
为什么被折叠?



