ETL 基础:数据加载与工具选择
1. ETL 流程的最后一步
ETL 流程的最后一步最为复杂,不仅要创建复杂的转换,还要选择合适的数据并在表之间进行各种连接,以获取所需格式的数据,并将其放入数据仓库的正确表中。为此,需创建一个新的转换。在 PDI 中,操作步骤如下:
- 依次点击“File ➤ New ➤ Transformation”,此时画布上会出现一个空白的转换。
2. 填充时间相关表
2.1 t_l_year 表
- 操作步骤:
- 将一个表输入步骤拖放到画布上。
- 选择暂存数据库连接。
- 编写以下查询语句:
select distinct
Year_id Year_id, Year_id Year_desc
from staging.stg_time;
此查询会从表中选择所有不同的年份,并将年份编号用于两个字段。使用 distinct 子句可确保不违反 Year_id 字段的主键约束,也不会引入可能在后续报告阶段导致笛卡尔积的重复项。预览输出时,屏幕上应显示出 2016 - 2025 这 10 年的 10 行数据,在两个不同名称的列中重复显示。最后,将其连接到表输出步骤,选择数据仓库数据库作为连接,并选择 t_l_year 表作为目标。
2.2 注意事项
若
超级会员免费看
订阅专栏 解锁全文
1113

被折叠的 条评论
为什么被折叠?



