10、深入探索Azure数据处理与存储:数据流程创建及最佳实践

Azure数据流创建与存储最佳实践

深入探索Azure数据处理与存储:数据流程创建及最佳实践

1. 创建数据流

在Azure Data Factories中,处理数据有两种方式:管道批量处理和数据流逐行处理。现在我们来深入了解数据流部分。与管道将处理批量数据的活动组合在一起不同,数据流是逐行操作的。以下是创建数据流的具体步骤:
1. 添加数据流 :在资源列表顶部点击加号,选择“Data flow”,此时主面板会显示数据流编辑器。
2. 启用调试模式 :为了在创建数据流时进行调试,可以启用编辑器顶部的调试开关。不过要注意,这会启动必要的资源,这些资源在使用Azure Data Factory时成本较高(具体是启动一个运行数据流的Spark集群,但Azure Data Factory以“无服务器”方式隐藏了该资源的存在和扩展细节)。因此,建议在处理数据流时开启调试开关,完成工作后及时关闭。
3. 选择数据源 :在编辑器中点击“Add Source”区域,然后选择包含出租车数据CSV文件的数据集。切换到编辑器下方窗格的“Projection”选项卡,点击“Import Projection”读取文件的架构,以便在下一步使用文件的列。
4. 添加派生列 :回到主编辑器,点击数据源右下角的小加号,会出现一系列可附加到数据流源的构建块。选择“派生列”为数据流中的数据添加一列。将输出流命名为“DistanceQualifier”,点击输入框下方的加号添加新列,将该列命名为“distanceQualifier”,选择“Enter expression”文本框,下方会出现打开表达式构

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值