数据科学入门:从零开始的全面指南
数据科学的崛起与定义
数据科学已成为热门且不断发展的领域,有人称数据科学家是 21 世纪最性感的工作。但数据科学究竟是什么呢?从行业中著名的维恩图来看,数据科学处于以下三个领域的交集:
- 黑客技能
- 数学和统计学知识
- 专业领域知识
在实际操作中,由于全面涵盖专业领域知识需要大量篇幅,所以重点会放在黑客技能以及数学和统计学知识上。
数据科学的学习方法
学习数据科学有很多现成的库、框架和工具包,但为了更好地理解数据科学,我们将采用“从零开始”的方法,即手动构建工具和实现算法。这样做虽然在处理大规模数据时可能不实用,但能帮助我们更深入地理解数据科学的原理。
在语言选择上,Python 是首选。它具有以下优点:
- 免费
- 相对容易编码和理解
- 有许多与数据科学相关的有用库
虽然本书的目标不是教你 Python,但会有一章的速成课程,突出对数据科学最重要的特性。如果你对 Python 编程一无所知,可能需要补充一些“Python 入门”教程。
数据科学的实践案例:DataSciencester
为了更好地理解数据科学的应用,我们引入一个假设的社交网络平台 DataSciencester。通过这个平台,我们可以探讨一些实际的数据科学问题,如:
- 寻找关键连接器 :在社交网络中,找出那些连接多个不同群体的关键人物。
- 数据科学家的薪资和经验 :分析数据科学家的薪资与工作经验之间的关系
超级会员免费看
订阅专栏 解锁全文
1611

被折叠的 条评论
为什么被折叠?



