避坑指南!数据分析最容易被忽略的10个错误

  

  一、数据采集阶段

  1、数据失真

  数据是可能骗人的,比如店铺、电影的评分,可能被人为操控;比如某公司发布的行业分析报告,也具有很大的主观性。

  基于错误的数据,做出的分析结论是无益甚至是有害的所以在采集数据时,我们先要考证数据的来源及可信度,还要关注不符合常理的数据变化,对数据采集方法进行调整。

  2、幸存者偏差

  就算数据是真实的,也不能轻信。

  举个有名的例子,二战时英军发现,从战场飞回来的战机,机身上的弹孔比引擎和油箱上的要多的多,根据这个数据,我们很容易得出要加强机身的防护的建议。但事实的真相却是,那些引擎和油箱上中弹的飞机已经回不来了,我们更应加强引擎和油箱的防护,这就是常说的“幸存者偏差”。

  

避坑指南!数据分析最容易被忽略的10个错误

 

  造成幸存者偏差的原因,其实是取样出现了偏差,在数据采集时,我们要避免主观臆断,推演各类可能性,科学取样。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值