Building Machine Learning Pipelines 项目教程
1. 项目目录结构及介绍
building-machine-learning-pipelines/
├── AUTHORS.rst
├── CHANGELOG.rst
├── CONTRIBUTING.rst
├── LICENSE
├── MANIFEST.in
├── Makefile
├── README.md
├── __init__.py
├── setup.cfg
├── github/
│ └── ISSUE_TEMPLATE/
├── chapters/
├── components/
├── interactive-pipeline/
├── pipelines/
├── pre-experiment-pipeline/
├── requirements/
└── utils/
└── download_dataset.py
目录结构介绍
- AUTHORS.rst: 项目作者信息。
- CHANGELOG.rst: 项目变更日志。
- CONTRIBUTING.rst: 贡献指南。
- LICENSE: 项目许可证。
- MANIFEST.in: 项目清单文件。
- Makefile: 项目构建文件。
- README.md: 项目介绍和使用说明。
- init.py: Python包初始化文件。
- setup.cfg: 项目配置文件。
- github/ISSUE_TEMPLATE/: GitHub问题模板。
- chapters/: 各章节的独立代码。
- components/: 项目组件。
- interactive-pipeline/: 交互式TFX管道。
- pipelines/: 完整的管道代码,包括Apache Beam、Apache Airflow、Kubeflow Pipelines和GCP。
- pre-experiment-pipeline/: 预实验管道。
- requirements/: 项目依赖文件。
- utils/download_dataset.py: 数据集下载脚本。
2. 项目启动文件介绍
项目的启动文件主要是utils/download_dataset.py
。该脚本用于下载初始数据集,为后续的机器学习管道准备数据。
启动步骤
- 从项目的根目录执行以下命令:
python3 utils/download_dataset.py
- 执行完毕后,会在项目根目录下生成一个
data
文件夹,其中包含consumer_complaints_with_narrative.csv
文件。
3. 项目的配置文件介绍
setup.cfg
setup.cfg
是项目的配置文件,用于定义项目的元数据和构建配置。以下是该文件的部分内容示例:
[metadata]
name = building-machine-learning-pipelines
version = 0.1
description = Code repository for the O'Reilly publication "Building Machine Learning Pipelines" by Hannes Hapke & Catherine Nelson
author = Hannes Hapke & Catherine Nelson
license = MIT
[options]
packages = find:
install_requires =
tensorflow==2.6.1
tfx==1.4.0
apache-beam==2.33.0
配置文件介绍
- [metadata]: 定义项目的元数据,如名称、版本、描述、作者和许可证。
- [options]: 定义项目的安装选项,包括需要安装的包及其版本。
通过这些配置文件,可以确保项目在不同环境中的一致性和可重复性。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考