9、机器学习系统设计全解析-优快云博客

本文链接：https://blog.youkuaiyun.com/linux/article/details/149705548

机器学习系统设计全解析

1. 机器学习基础概念回顾

在深入机器学习系统设计之前，有几个基础概念值得回顾。自动编码器中间的隐藏层通常被称为瓶颈层，其节点数量必须少于编码器和解码器的节点数。这会迫使模型尝试在输入数据中找到模式或表示，以便能用少量信息重构数据。成本函数则用于计算并最小化输入和输出数据之间的差异。

降维是深度学习中自动编码器的一个重要方面，它能减少训练模型时使用的参数或特征数量。虽然增加更多特征有助于构建能更深入表示数据的复杂模型，但过多特征可能导致过拟合。主成分分析（PCA）是最常用的降维技术，它可以利用线性代数对N维数据集进行降维。在使用数据训练模型之前进行降维处理，有助于去除数据中的噪声并避免过拟合。

2. 机器学习系统组件

构建一个强大的机器学习系统需要多个环节的协同工作，从数据收集到模型部署给用户，每个环节都对系统的动态性和可扩展性起着至关重要的作用。大多数机器学习系统包含以下阶段，当然，根据业务需求可能还会有其他阶段：
- 数据收集 ：理解应用程序和任务目标有助于决定如何收集数据以及收集哪些数据。确定要预测的目标值，如房价或某种疾病的存在情况，这些目标值可以通过显式或隐式方式收集。根据任务不同，数据通常存储在数据库（如MySQL用于元数据或表格数据）或云存储（如Amazon S3用于图像、视频或音频）中。
- 数据预处理 ：收集到的数据往往存在缺失值和异常值，这会对模型产生负面影响。处理这些不清洁数据的方法包括去除异常值、归一化某些特征或根据收集的数据量填充缺失数据。数据清洗后，接下来是特征选择/工程过程。探索性数据分析（EDA）是理解收集