Dataphin入门
Dataphin简介
Dataphin是阿里云研发的一款以数仓规划、数据智能研发、数据资产管理融为一体,面向大数据建设、管理、应用诉求,一站式提供从数据接入到数据消费的智能数据构建与管理的大数据能力,为企业数据中台搭建提供产品、技术和方法论的服务,Dataphin提供了图形化界面操作与代码编写的服务,无需使用客户端命令行或API进行管理操作。
了解Dataphin
-
Dataphin与阿里云的存储计算引擎Maxcompute、智能图形化分析工具Quick BI结合使用,为数据迁移、治理、规划、可视化及数据应用提供一站式服务。你的数据源可以从MaxCompute、MySQL、DRDS(分布式关系型数据库服务)、SQLServer、Oracle、PostgreSQL、Hive、HDFS、HBase 0.94.X、HBase 1.1.X、MongoDB、FTP、Vertica、AnalyticDB、Elasticsearch引入到Dataphin中。假如你的数据源分布零散在各个系统,在数据开发、数据应用、数据分析时数据难以统一全局数据,你可以将数据迁移到Dataphin进行统一开发和管理。Dataphin提供全量或增量式的数据引入,让数据中台的数据与各平台数据按日、周、月为周期进行同步。Dataphin是大数据智能数仓平台治理、开发、管理的平台,目前已更新至1.8版本(公测中)。
-
Dataphin的计算类似于Hive跑的MapReduce任务,但是它比Hive快的很多,能在秒级别内完成计算,这依赖于强大的计算存储引擎MaxCompute。你可以使用Dataphin代码任务或Dataphin定制的规范建模进行任务开发,代码任务主要由SQL、Python、Shell开发,同时支持MaxCompute SQL、MaxCompute MR、Spark_Jar_On_MaxCompute、Virtual、函数、资源、即席查询进行开发。
数仓建设首先需要进行数据规范建设,然后基于数据进行开发。
数据开发分为:
功能特性:
后续陆续分享Dataphin、MaxCompute、Quick BI及大数据学习心得。
转载请附上本文链接,错误之处请在评论指出,愿同大家在学习的路上一起成长!