数据科学:概念、思维与问题探索
数据科学概述
计算的目的是获得洞察,而非仅仅得到数字。数据科学作为一个新兴领域,尚未有完全明确的定义,但它处于计算机科学、统计学和实际应用领域的交叉点。
从计算机科学中,数据科学借鉴了机器学习和高性能计算技术,以应对大规模数据处理;统计学为其带来了探索性数据分析、显著性检验和可视化的悠久传统;而商业和科学领域的应用则为数据科学带来了值得攻克的挑战以及评估成功的标准。
近年来数据科学突然兴起,主要有以下三个原因:
1. 新技术助力数据收集 :新技术使得我们能够捕获、标注和存储大量的社交媒体、日志和传感器数据。在积累了这些数据后,人们自然会思考如何利用它们。
2. 计算能力提升 :计算技术的进步让我们能够以新颖的方式和更大的规模分析数据。云计算架构让小型企业或个人在需要时也能获得强大的计算能力。机器学习的新方法在计算机视觉和自然语言处理等长期存在的问题上取得了惊人的进展。
3. 成功案例的示范作用 :像谷歌、脸书等知名科技公司,以及文艺复兴科技和TwoSigma等量化对冲基金,都证明了现代数据分析的强大力量。在体育管理(如《点球成金》)和选举预测(如内特·西尔弗的工作)等不同领域应用数据的成功故事,吸引了大量公众对数据科学的关注。
计算机科学、数据科学与真正科学的思维差异
计算机科学家往往不太尊重数据,他们传统上认为算法是关键,数据只是经过处理的对象。而要成为一名有效的数据科学家,首先要学会像真正的科学家一样思考。真正的科学家努力理解复杂而混乱的自然世界,而计算机科学
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



