简介
先丢一段阿里云官方的说明:
大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
说白了就是阿里云开发了一套大数据平台,相当于hadoop(含数仓工具Hive、工作流引擎Oozie等一套组件)的云版本。如果你有Hive的操作经验,应该会比较容易上手。
上手
一、项目管理-建立项目
这里项目的概念有点像数据流转流程中的层级,按照一般做法会有ods层、dw层、bi层。当然也可以更细,dw层拆分成original、cleaning、finish三层结构。关键还是看需求,看数据清洗、数据处理的过程是否复杂到需要建立多层结构。
二、数据集成-添加数据源
其实一开始DataWorks就为我们默认建立了一个叫做odps_first的数据源,代表的是这个odps项目本身。在ods项目中添加所有源数据库。支持的数据库种类相当丰富,丢图跑:
添加的数据库支持阿里云、本地有公网IP、本地无公网IP,