Kedro 框架入门教程

最新推荐文章于 2025-06-04 09:02:43 发布

任蜜欣Honey

最新推荐文章于 2025-06-04 09:02:43 发布

阅读量390

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00418/article/details/141118847

Kedro 框架入门教程

kedro项目地址:https://gitcode.com/gh_mirrors/ked/kedro

本文档将引导您了解 Kedro 的核心概念和关键组件，包括项目目录结构、启动文件和配置文件。让我们从基础开始。

1. 项目的目录结构及介绍

Kedro 项目通常具有以下标准目录结构：

├── conf/
│   ├── local/                # 本地开发环境配置
│   └── ...
├── src/
│   ├── pipelines/            # 存放数据处理和机器学习管道
│   │   ├── __init__.py       # 管道初始化文件
│   │   └── pipeline_name.py  # 具体管道定义文件
│   ├── data/                 # 数据集存储
│   ├── models/               # 存储模型的目录
│   ├── nodes/                # 自定义节点的模块
│   ├── parameters/           # 参数模板
│   ├── templates/            # 模板文件
│   └── pipelines.py          # 管道加载的主入口点
├── .kedro/                   # Kedro 相关的配置和元数据
├── env/                      # 可选的虚拟环境
└── ...

conf/: 配置目录，包含了不同环境（如本地、测试、生产）的配置。
src/: 源代码目录，存放所有业务逻辑。
- pipelines/: 包含定义数据处理和 ML 管道的文件。
- data/: 存储数据集，可以是原始数据或预处理后的数据。
- models/: 用于存储训练好的模型。
- nodes/: 定义自定义操作（节点）的地方。
- parameters/: 参数模板，用于传递给管道的参数。
- templates/: 提供代码生成的模板。
- pipelines.py: 加载和管理所有管道的中心位置。
.kedro/: Kedro 运行时需要的隐藏目录，保存元数据和其他中间状态。
env/: 可选的虚拟环境，用于安装项目依赖。

2. 项目的启动文件介绍

在 Kedro 项目中，没有特定的“启动文件”。相反，你可以通过运行 kedro run 命令来启动一个管道。这个命令会自动执行 src/pipelines.py 中的代码，它负责加载和运行项目中的所有管道。

此外，如果你需要自定义启动流程，可以通过创建 run.py 文件实现。例如，创建 src/run.py 并添加一些自定义的启动代码，这样当运行 python src/run.py 时，你的自定义逻辑就会被执行。

from kedro.framework.session import KedroSession

def main():
    session = KedroSession.create(package_name="your_project")
    session.run()

if __name__ == "__main__":
    main()

当你执行上述 run.py 文件时，Kedro 会根据配置文件和输入参数运行整个项目。