4、深度学习系统：核心组件与生产部署全解析-优快云博客

本文链接：https://blog.youkuaiyun.com/bean/article/details/151034513

深度学习系统：核心组件与生产部署全解析

1. 数据科学家与工程师的工作流程

数据科学家和工程师在处理用例时，首先会借助数据管理服务查看可用数据，接着提出假设，并将数据处理和训练技术编写成代码。这些步骤可通过工作流管理服务组合成工作流。当工作流管理服务执行工作流时，它会联系数据管理服务和模型训练服务来执行实际任务并跟踪进度。

为确保训练超参数最优，数据科学家会使用实验服务定义并运行实验。实验服务会以不同的超参数启动工作流管理服务中定义的多个工作流实例。各服务和训练代码会将超参数、代码版本、模型训练指标和测试结果存储到元数据与工件存储中。数据科学家和工程师可通过用户界面比较实验运行情况，推断出训练模型的最佳方法。

若涉及实验，实验服务将驱动工作流管理服务运行模型训练，而非由数据科学家手动触发。产品经理可通过用户界面查看和查询系统中的各类指标，这些指标数据由元数据与工件存储提供。他们通常会订阅由模型监控服务提供支持的模型监控警报，以确保产品按预期运行。

2. 深度学习系统的关键组件

一个基本的深度学习系统包含以下几个关键组件：
| 组件名称 | 功能描述 |
| ---- | ---- |
| 数据集管理 | 负责数据的收集、组织、描述和存储，为模型训练提供高质量的数据。与数据收集者、工作流管理服务、探索和可视化接口以及模型训练服务存在交互关系。 |
| 模型训练 | 根据工作流管理服务的指令，从数据管理服务获取输入训练数据，训练模型并将其存储在元数据与工件存储中。但在训练时间和同时训练模型数量方面存在挑战。 |
| 模型服务 | 处理推理请求并生成推理结果，适用于在线和交互式使用场景。需要考