简介
先丢一段阿里云官方的说明:
大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
说白了就是阿里云开发了一套大数据平台,相当于hadoop(含数仓工具Hive、工作流引擎Oozie等一套组件)的云版本。如果你有Hive的操作经验,应该会比较容易上手。
上手
一、项目管理-建立项目
这里项目的概念有点像数据流转流程中的层级,按照一般做法会有ods层、dw层、bi层。当然也可以更细,dw层拆分成original、cleaning、finish三层结构。关键还是看需求,看数据清洗、数据处理的过程是否复杂到需要建立多层结构。
二、数据集成-添加数据源
其实一开始DataWorks就为我们默认建立了一个叫做odps_first的数据源,代表的是这个odps项目本身。在ods项目中添加所有源数据库。支持的数据库种类相当丰富,丢图跑:
添加的数据库支持阿里云、本地有公网IP、本地无公网IP,从这里可以看到,如果决定采用MaxCompute来解决大数据计算的问题,那么所有数据库都在阿里云上是一件很方便的事情。毕竟人家一手包揽了存储、计算,一家人就是要整整齐齐。如果继续购买Quick BI、机器学习、DataV数据可视化等模块,那一家人就更