dataworks 简介
本文将为您介绍什么是DataWorks,以及DataWorks的功能、约束与限制。
DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
DataWorks基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力,详情请参见MaxCompute简介。
通过DataWorks,可对数据进行传输、转换、集成的操作,从不同的数据存储引入数据,对数据进行转化和开发,最后将数据输送到其他数据系统。
目录列表
我这里主要介绍一下业务流程的目录列表以及其作用
这里面主要关注数据集成、数据开发、表、资源、函数,至于算法和控制,目前我这块还没去研究。
-
数据集成
数据集成主要是用来做数据同步的,支持多种数据源,如 redis ,mysql,hbase 等。
-
数据开发
这里面主要进行一些脚本的开发,一般常用的是 ODPS SQL,与Hive SQL语法基本一致,适用于海量数据(TB级别),实时性要求不高的场合,它的每个作业的准备,提交等阶段要花费较长时间, 因此要求每秒处理几千至数万笔事务的业务是不能用ODPS SQL完成的;ODPS SQL采用的是类似于SQL的语法,可以看作是标准SQL的子集,但不能因此简单的把ODPS SQL等价成一个数据库,它在很多方面并不具备数据库的特征。
-
表
这里面一般会创建流程中产出的表
-
资源