编者注:想要了解更多机器学习与深度学习方面最新进展,请查看2017年7月12 - 15日在北京举行的Strata数据大会。
我们已经谈论数据科学和数据科学家有10年了。虽然对“数据科学家”的含义总是存在一些争议,但是我们看到了许多大学、在线学院和培训机构都已经提供数据科学的课程,并给予硕士学位、资格认证等等你能想到的名字。当我们只看统计数据时,事情是比较简单的。但简单并不总意味着健康,如果仅仅只是看对于数据科学家的需求,数据科学项目的多样性是不会展现出来的。
随着数据科学领域的发展,出现了不少很差的专业分类。企业会使用“数据科学家”和“数据科学团队”来描述多种角色,包括:
进行临时性分析和报告(包括BI和业务分析)的人员
负责统计分析和建模的人。他们在许多情况下会进行正式的实验和测试
越来越多的使用Notebook开发原型的机器学习建模者
而这个列表里并不包括DJ Patil和Jeff Hammerbacher这样思考和创造“数据科学家”这个词的人:即从数据来构建产品的人。这些数据科学家比较类似机器学习建模者,除了他们构建的东西:他们是以产品为中心,而不是研究人员。它们通常工作于很多数据产品。无论是什么角色,数据科学家不仅仅是统计学家。他们通常拥有科学博士学位,并拥有处理大量数据的实践经验。他们几乎总是很好的程序员,而不仅仅是R或其他一些统计软件包的专家。他们了解数据采集、数据清理、原型设计、将原型转化为生产系统、产品设计、建立和管理数据基础架构等。实际上,他们原来是硅谷“独角兽”的原型:罕见而且很难雇用。
重要的不是我们要有明确定义的专业。在蓬勃发展的领域,总是会有巨大的灰色地带。使“数据科学”如此强大的核心是认识到数据比精算统计、商业智能和数据仓库更强大。打破将数据人员与机构的其他部分(软件开发、营销、管理、人力资源等)分离的孤岛是数据科学的独特之处。其核心概念是数据适用于所有事情。数据科学家的首要任务是收集和使用所有数据。没有什么部门可以例外。
当找不到这些独角兽时,我们就把他们拥有的技能分解成了不同的专业。进而,当数据科学诞生后,这些技能人员开始出现。我们突然开始看到了数据工程师。数据工程师并不主要是数学家或统计学家,尽管他们对数学和统计学也不陌生。他们并不主要是软件开发人员,尽管他们对软件开发也不陌生。数据工程师负责数据技术栈的操作和维护。他们可以把在笔记本电脑上开发的原型导入在生产系统中,并可靠地运行。他们负责了解如何构建和维护Hadoop或Spark群集,以及数据生态系统的其他工具:数据库(如HBase和Cassandra),流式计算数据平台(Kafka、Spark Streaming、Apache Flink