第4章 以数据为导向与通过数据获取信息
定语:滥用数据容易导致局部优化,进而忽视大局,这是极其危险及至致命的。
数学在优化已知系统方面可以做得很好,而人类更善于发现新的系统 。换言之,渐进式的改变可以达到局部极限,创新则可能导致全局洗牌。
人的职责就是在数据优化的背后做个聪慧的设计者。
数据科学家的思维方式(模式)
莫尼卡·罗加蒂是LinkedIn公司的一位数据科学家,她根据经验总结了10条创业者需要避免的数据圈套:
1、假设数据没有噪声
为获取的数据去噪是很耗时的一道工序,而回报通常是巨大的,往往简单的一步去噪就可能提示重要的规律。
2、忘记归一化
譬如,统计一个热门婚礼目的地列表。你大可以统计每个城市每年有多少人乘坐飞机来结婚,但如果不根据该城市每年的旅客量进行归一化,你得到的只会是一个热门旅游城市列表。
3、排除异常点
针对异常点,简单的将其排除不讨论或不明确原因都是不妥的。
4、包括异常点
尽管那21个每天使用你产品一千多次的用户从定性的角度讲十分有趣,因为其揭示了一些你意料之外的事情,但不适合用于建立一个普适的模型。莫尼卡提醒到:“你在打造基于数据的产品时,或许会需要排除这些点。不然,网站的‘猜你喜欢"功能会给所有人推荐相同的东西:你的忠实粉丝所喜欢的东西。”
5、忽视季节性
6、抛开基数侈谈增长
基数很关键。如莫尼卡所说:“你的产品刚上线时,从严格意义上讲你爸爸注册--个账号也可以使你的用户量翻倍。”
7、数据呕吐
如果你不知道什么数据对你更重要,那么即便你的数据统计板再大也没有用。
8、谍报军情的指标
你希望做到快速响应,于是设置了很多警报,在任何数据看起来不正常时都给你提醒,以保证能够快速处理。但倘若设置的阈值过于敏感,警报就会不停地聒噪,你也会渐渐开始无视各种异常。
9、“不是在这儿收集的”综合征
10、关注噪声
“人类与生俱来的模式识别能力,容易使我们误以为无规律的事物是有规律的,”莫尼卡提醒创业者,“把虚荣指标放在一边,退后一步,站在更高的角度看问题。”
精益创业与大愿景
如果一个大的、坚实的、无畏的愿景很重要,带有挑战世界的梦想,那这跟走一步看一步、不停质疑自身的精益创业方法又该如何兼容呢?
精益创业把认知放在高于一切的位置,并鼓励发散思维、积极探索、试验求证。精益创业不等于不假思索地重要“开发 – 测试 – 认知”循环,而在于真正理解发生了什么并接受新的可能性。