数据科学入门:思维转变与问题探索
1. 数据科学的定义与兴起原因
数据科学目前尚未有完全明确的定义,但它处于计算机科学、统计学和实际应用领域的交叉点。从计算机科学中,我们获得了用于处理大规模数据的机器学习和高性能计算技术;从统计学中,继承了探索性数据分析、显著性检验和可视化的悠久传统;而应用领域则带来了值得攻克的挑战以及评估成功的标准。
数据科学在当下兴起,主要有三个原因:
- 新技术的出现 :使得我们能够捕获、标注和存储大量的社交媒体、日志和传感器数据。在积累了这些数据后,我们自然会思考如何利用它们。
- 计算能力的进步 :让我们能够以新颖的方式和更大的规模分析数据。云计算架构让小型企业或个人在需要时也能获得强大的计算能力。新的机器学习方法在计算机视觉和自然语言处理等长期存在的问题上取得了惊人的进展。
- 成功案例的示范 :像谷歌、脸书等科技公司,以及文艺复兴科技和TwoSigma等量化对冲基金,证明了现代数据分析的强大力量。《点球成金》中运用数据管理棒球队的成功故事,以及内特·西尔弗在选举预测中的应用,都让数据科学走进了大众视野。
2. 计算机科学、数据科学与真正科学的思维差异
2.1 思维差异的体现
计算机科学家通常不太重视数据,他们传统上认为算法才是关键,数据只是算法处理的对象。而要成为一名有效的数据科学家,首先要学会像真正的科学家一样思考。真正的科学家致力于理解复杂而混乱的自然世界,而计算机科学家则倾向于构建自己干净、有序的虚拟世界。两者的思维差异体现在以下几个方面:
|
超级会员免费看
订阅专栏 解锁全文
1167

被折叠的 条评论
为什么被折叠?



