1、利用 Scala 进行数据科学:从基础到应用

利用 Scala 进行数据科学:从基础到应用

1. 引言

20 世纪后半叶是硅的时代,在短短五十年间,计算能力从极度稀缺变得极为普通。21 世纪前半叶则是互联网时代,过去 20 年见证了谷歌、推特和脸书等巨头的崛起,它们彻底改变了我们对知识的认知方式。互联网是一个庞大的信息网络,人类产生的 90% 的数据是在过去 18 个月内生成的。能够利用这些海量数据获得真正理解的程序员、统计学家和科学家,将对企业、政府和慈善机构的决策产生越来越大的影响。

2. 数据科学概述

2.1 数据科学的定义

数据科学是从数据中提取有用信息的过程。作为一门学科,它的定义仍有些模糊,几乎每个专家都有自己的定义。这里我们采用德鲁·康威(Drew Conway)的描述,他将数据科学描述为三种正交技能的集合:
- 黑客技能 :数据通过计算机存储和传输,计算机、编程语言和库是数据科学家的工具,他们必须熟练运用这些工具来处理数据。Scala 就是这样一种强大的编程语言,是编程工具包中的有力武器。
- 统计学和数值算法知识 :优秀的数据科学家需要理解机器学习算法的原理,并能够正确解释结果,不被误导性的指标、欺骗性的统计数据或错误解读的因果关系所迷惑。
- 问题领域的理解 :数据科学过程需要以科学严谨的方式构建和发现关于问题领域的知识。因此,数据科学家必须提出正确的问题,了解先前的研究结果,并明白数据科学工作在更广泛的业务或研究背景中的定位。

2.2 数据科学项目的工作流程

以分析政治竞选活动的公众看法为例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值