T-SQL 数据转换与清理:全量和增量加载详解
1. 数据移动的前期准备与替代方案
在进行数据移动前,若创建了集成服务目录,需在对象资源管理器中打开该节点,此时仅能看到嵌套的 SSISDB 节点。右键点击该节点,可为项目创建至少一个文件夹。在同一弹出窗口的“报表”选项下,还能找到集成服务仪表板报表。
不过,SSIS 并非从数据源提取数据、进行转换并加载到目标的唯一选择。随着 Azure 等云环境的使用日益广泛,我们面临着如何处理部分存储在云端、部分存储在本地的数据的挑战。针对这种情况,有 Data Factory 或 Stream Analytics 等云服务,它们可用于在不同云存储之间移动数据,或在云和本地环境之间传输数据,但使用这些服务不在本文讨论范围内。
2. 数据转换概述
数据转换是指对数据进行各种更改以使其达到所需格式的过程。许多转换可通过查询中的简单表达式完成,但也存在比这些简单表达式更复杂的挑战。接下来将学习如何全量或增量读取数据、去重以及进行数据质量检查。
3. 全量数据加载
全量数据加载意味着将从数据源提取的每个数据集完整加载到着陆表或暂存表中。全量加载过程有两种变体:
3.1 第一种变体步骤
- 删除或截断着陆表或暂存表的内容。
- 使用 SSIS 或分布式查询提取完整数据集。
- 将提取的数据集插入表中。
为了演示,我们在名为 DemoCust 的数据库中创建两个相同的表:Landing.Products 和 Landing.Products2,代码如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



