13、Azure Data Factory与Data Lake Store的批量处理实战

Azure Data Factory与Data Lake批量处理实战

Azure Data Factory与Data Lake Store的批量处理实战

1. Azure Data Factory性能调优

在选择云数据分析处理系统时,性能和可扩展性是需要考虑的关键因素。Azure Data Factory 提供了一个安全、可靠且高性能的数据摄取和转换平台,可大规模运行。其复制活动提供了高度优化的数据加载体验,易于安装和配置。在单个管道复制活动中,可实现以下类似的加载速度:
| 目标存储 | 加载速度 |
| ---- | ---- |
| Azure SQL 数据仓库 | 1.2 GB 每秒 |
| Azure blob 存储 | 1.0 GB 每秒 |
| Azure Data Lake Store | 1.0 GB 每秒 |

1.1 并行复制

Azure Data Factory 能够在复制活动运行中并行执行从源复制数据或向目标写入数据的操作。这一特性可显著提高复制操作的吞吐量,并减少数据转换和移动功能所需的时间。可以使用 JSON 的 “parallel copies” 属性来指定复制活动要使用的并行度,可将此属性视为复制活动中可并行从源读取或向接收器数据存储写入的最大线程数。示例代码如下:

"activities":[  
    {
        "name": "Sample copy activity",
        "description": "",
        "type": "Copy",
        "inputs": [{ "name": "InputDataset" }],
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值