使用TensorFlow Extended构建机器学习管道
1. TFX组件概述
机器学习工作流可以通过管道分解为一系列组件,每个组件负责机器学习过程中的特定阶段。TFX提供了标准组件和自定义组件,用户可以仅使用几个标准组件来构建管道,也可以借助自定义组件扩展机器学习过程。自定义组件可根据用户需求进行构建,例如从闭源系统吸收数据、应用数据增强、采样,以及将非Python语言开发的工具集成到机器学习过程中,如使用R进行数据分析等。
TFX中的组件由组件规范和执行器类组成,它们都包含在组件接口类中。组件规范定义了组件的输入和输出契约,包括组件的输入和输出工件以及执行组件过程中应用的参数。执行器类负责实现组件的任务。规范和执行器组合到接口类中,以便在TFX管道中使用该组件。
组件的执行分为三个步骤:
1. 驱动程序(Driver) :根据元数据决定需要执行的任务,并协调作业执行。
2. 执行器(Executor) :完成用户提供的代码,以完成当前项目的实际工作。
3. 发布者(Publisher) :负责收集执行器的结果,并更新元数据库。
如果只需要标准功能,则无需对驱动程序或发布者的代码进行任何更改。只需扩展执行器,即可在保持相同输入、输出和执行属性的情况下对执行器进行修改。也可以编写完全定制的执行器来实现一组完全不同的功能。
2. 自定义组件类型
有三种类型的自定义组件:基于Python函数的组件、基于容器的组件和完全自定义的组件。
| 组件类型 | 描述 |
| —
超级会员免费看
订阅专栏 解锁全文

2101

被折叠的 条评论
为什么被折叠?



