25、ETL 基础:数据加载与工具选择

ETL 基础:数据加载与工具选择

1. ETL 流程的最后一步

ETL 流程的最后一步最为复杂,不仅要创建复杂的转换,还要选择合适的数据并在表之间进行各种连接,以获取所需格式的数据,并将其放入数据仓库的正确表中。为此,需创建一个新的转换。在 PDI 中,操作步骤如下:
- 依次点击“File ➤ New ➤ Transformation”,此时画布上会出现一个空白的转换。

2. 填充时间相关表
2.1 t_l_year 表
  • 操作步骤:
    1. 将一个表输入步骤拖放到画布上。
    2. 选择暂存数据库连接。
    3. 编写以下查询语句:
select distinct
Year_id Year_id, Year_id Year_desc
from staging.stg_time;

此查询会从表中选择所有不同的年份,并将年份编号用于两个字段。使用 distinct 子句可确保不违反 Year_id 字段的主键约束,也不会引入可能在后续报告阶段导致笛卡尔积的重复项。预览输出时,屏幕上应显示出 2016 - 2025 这 10 年的 10 行数据,在两个不同名称的列中重复显示。最后,将其连接到表输出步骤,选择数据仓库数据库作为连接,并选择 t_l_year 表作为目标。

2.2 注意事项

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值