数据科学入门:从日常数据到专业分析
1. 数据科学的日常体现
新的一天开始,闹钟响起,你起床后查看天气预报来挑选衣服,吃早餐时考虑牛奶和麦片的合适比例,还可能查看交通状况来规划上班或上学的路线。在这一系列日常活动中,你已经与大量不同类型的数据进行了交互,包括时间、天气、交通、体育赛事结果等。数据是我们日常生活中习以为常的一部分,我们是数据的贪婪消费者,但很少去思考数据的来源、生产者以及如何更明智地使用数据。在当今数据驱动的社会中,理解如何读取和利用数据是一项关键技能。
2. 数据科学的定义
2.1 宽泛定义
数据科学的确切定义存在争议,我们采用最宽泛的定义:数据科学涵盖了与收集、分析、解释和利用数据相关的活动。例如,计算冰箱里剩余鸡蛋的数量并确定购买时间,估算食堂里巧克力布丁的剩余数量和排队人数以推断自己能否买到布丁,老师点名并比较早晚的出勤结果等,这些都是数据科学的体现。
2.2 不同侧重点
许多人对数据科学的定义更为狭义,主要关注数据分析。例如,加州大学伯克利分校的数据科学教材认为,数据科学是“通过探索、预测和推断从大量多样的数据集中得出有用结论”,未涉及数据收集过程以及数据的其他用途。而我们采用的宽泛定义并不与这些观点矛盾,本书将从整体上介绍数据科学,展示数据收集过程如何影响分析,以及每个环节之间的相互联系,帮助读者更深入地理解数据科学。
2.3 数据与信息的区别
数据科学本质上是将数据转化为信息的过程。数据和信息有明确的区别,如下表所示:
| 数据 | 信息 |
| — | — |
| 数据是蛋糕的原料,如鸡蛋、糖、牛奶等 |
超级会员免费看
订阅专栏 解锁全文
6246

被折叠的 条评论
为什么被折叠?



