Azure Data Factory与Data Lake Store的批量处理实战
1. Azure Data Factory性能调优
在选择云数据分析处理系统时,性能和可扩展性是需要考虑的关键因素。Azure Data Factory 提供了一个安全、可靠且高性能的数据摄取和转换平台,可大规模运行。其复制活动提供了高度优化的数据加载体验,易于安装和配置。在单个管道复制活动中,可实现以下类似的加载速度:
| 目标存储 | 加载速度 |
| ---- | ---- |
| Azure SQL 数据仓库 | 1.2 GB 每秒 |
| Azure blob 存储 | 1.0 GB 每秒 |
| Azure Data Lake Store | 1.0 GB 每秒 |
1.1 并行复制
Azure Data Factory 能够在复制活动运行中并行执行从源复制数据或向目标写入数据的操作。这一特性可显著提高复制操作的吞吐量,并减少数据转换和移动功能所需的时间。可以使用 JSON 的 “parallel copies” 属性来指定复制活动要使用的并行度,可将此属性视为复制活动中可并行从源读取或向接收器数据存储写入的最大线程数。示例代码如下:
"activities":[
{
"name": "Sample copy activity",
"description": "",
"type": "Copy",
"inputs": [{ "name": "InputDataset" }],
Azure Data Factory与Data Lake批量处理实战
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



