1. 大数据体系
过程 | 内容 | 职位 | |
---|---|---|---|
1 | 数据平台 | Data Platform,构建、维护稳定、安全的大数据平台,按需设计大数据架构,调研选型大数据技术产品、方案,实施部署上线。 | 大数据架构师,数据平台工程师 |
2 | 数据采集 | Data Collecting,从Web/Sensor/RDBMS等渠道获取数据,为大数据平台提供数据来源,如Apache Nutch是开源的分布式数据采集组件,大家熟知的Python爬虫框架ScraPy等。 | 爬虫工程师,数据采集工程师 |
3 | 数据仓库 | Data Warehouse,有点类似于传统的数据仓库工作内容:设计数仓层级结构、ETL、进行数据建模,但基于的平台不一样,在大数据时代,数据仓库大多基于大数据技术实现,例如Hive就是基于Hadoop的数据仓库。 | ETL工程师,数据仓库工程师 |
4 | 数据处理 | 以前做ETL或许是利用工具直接配置处理一些过滤项,写代码部分会比较少,如今在大数据平台上做数据处理可以利用更多的代码方式做更多样化的处理,所需技术有Hive、Hadoop、Spark等。 | Hadoop工程师,Spark工程师 |
5 | 数据分析 | 基于统计分析方法做数据分析:例如回归分析、方差分析等。大数据分析例如Ad-Hoc交互式分析、SQL on Hadoop的技术有:Hive 、Impala、Presto、Spark SQL,支持OLAP的技术有:Kylin | |
6 | 数据挖掘,机器学习,深度学习 | 主要是设计并在大数据平台上实现数据挖掘算法:分类算法、聚类算法、关联分析等。机器学习是一个计算机与统计学交叉的学科,基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据 |