MLOps 入门:从挑战到解决方案
1. “垃圾进,垃圾出”:数据质量的重要性
在计算领域,“垃圾进,垃圾出”这句经典名言强调了有问题的输入数据会产生有问题的输出。在机器学习(ML)中,这一点尤为关键,因为模型训练过程严重依赖输入数据的质量。
ML 模型训练是将标记好的训练数据输入到 ML 算法中以学习其模式的过程。众所周知,ML 模型的性能仅取决于数据的质量。一些知名的 ML 从业者最近开始倡导以数据为中心的 AI 方法,以进一步凸显高质量训练数据的好处。
除了数据质量,数据新鲜度和数据统计属性的变化等与数据相关的方面也对 ML 模型性能有重大影响。如果在这些与数据相关的方面缺乏数据基础设施、数据工程严谨性和人员支持,将对 ML 模型性能产生负面影响,最终会减缓将 ML 模型投入生产的进程。
以下是模型中心型 AI 和数据中心型 AI 的对比:
| AI 类型 | 方法 |
| ---- | ---- |
| 模型中心型 AI | 通过调整超参数、改变模型架构或算法来提高 ML 模型性能,直到达到所需指标,这是传统行业一直采用的方法。 |
| 数据中心型 AI | 与模型中心型 AI 目标相同,但采用不同方法。它固定超参数、模型架构和算法,同时应用基于错误分析的数据迭代来提高模型性能。正式定义为系统地对用于构建 AI 系统的数据进行工程化的学科。 |
2. 起步阶段:传统 ML 的局限
传统上,ML 是从单个科学实验的角度进行的,主要由数据科学家单独进行。数据科学家在 ML 领域知识渊博且经过专业训练,主要负责与模型训练相关的任务。
因此,数据科学家往往较
超级会员免费看
订阅专栏 解锁全文
4110

被折叠的 条评论
为什么被折叠?



