关于DBT项目
dbt 项目告知 dbt 项目的上下文以及如何转换数据(构建数据集)。根据设计,dbt 强制执行 dbt 项目的顶级结构,如文件、目录、目录等。在顶级目录中,可以满足组织和数据管道需求的任何方式组织项目。
dbt_project.yml
models
snapshots
至少,项目需要的只是项目配置文件。DBT 支持许多不同的资源,因此项目还可能包括:dbt_project.yml
-
模型 models
每个模型都位于单个文件中,并包含将原始数据转换为可供分析的数据集的逻辑,或者更常见的是,是此类转换的中间步骤。 -
快照 snapshots
一种捕获可变表状态的方法,以便稍后可以参考它。 -
种子 seeds
CSV 文件包含静态数据,您可以使用 dbt 将其加载到数据平台中。 -
测试 tests
可以编写的 SQL 查询来测试项目中的模型和资源。 -
宏 macros
可以多次重用的代码块。 -
文档 docs
您可以生成的项目文档。 -
来源 sources
一种命名和描述通过提取和加载工具加载到仓库中的数据的方法。 -
暴露 exposures
一种定义和描述项目下游使用的方法。 -
指标 metrics
一种为项目定义指标的方法。 -
分析 analysis
一种在项目中组织分析 SQL 查询的方法,例如 QuickBooks 中的总账。
在构建项目结构时,应考虑对组织工作流的以下影响:
- 人们将如何运行 dbt 命令 — 选择路径
- 人们如何在项目中导航 — 无论是作为 IDE 中的开发人员还是文档中的利益干系人
- 人们将如何配置模型 - 一些

DBT项目涉及dbt_project.yml配置文件、模型、快照、种子、测试、宏、文档等多个组件,用于数据转换和组织。项目结构考虑了工作流、模型配置和团队协作。dbt_project.yml定义项目名称、版本、数据平台连接等信息,不同目录存储相应资源,如模型文件用于数据转换,测试文件确保数据质量,文档生成项目文档。
最低0.47元/天 解锁文章
2457

被折叠的 条评论
为什么被折叠?



