深入了解Azure Data Factory:创建与配置指南
1. Azure Data Factory简介
Azure Data Factory并非简单的数据摄取和转换引擎,而是企业级服务。它能接入众多支持技术和服务,实现普通ETL技术无法提供的深度数据洞察与分析。例如,可每天早上启动Hadoop/HDInsight作业进行大数据分析,或每月将数据推送到Azure Machine Learning进行趋势和行为的深度分析。
Azure Data Factory通过关键概念和组件实现这些功能,其主要由四个关键组件协同工作,为数据的收集、聚合和处理提供平台,用于构建从简单到复杂的数据移动和转换编排。
- 活动(Activity) :是对数据执行的一组操作,作为编排和执行的单元。每个活动可以有零个或多个输入数据集,并产生一个或多个输出数据集。例如,将数据从一个数据集复制到另一个数据集,或调用SQL Server、Azure SQL Database或Azure SQL Data Warehouse中的存储过程。
- 管道(Pipeline) :是一组活动,共同完成一项任务。例如,一个管道可以包含摄取和清理日志数据的活动,然后在HDInsight集群上启动HIVE查询以分析日志数据。管道的优势在于可以将活动作为一个整体进行管理,如部署和调度管道,而非单独管理每个活动。
- 数据集(Dataset) :是数据的命名视图,简单地指向或引用在活动中用作输入和输出的数据。
- 链接服务(Linked Service) :类似
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



