24、构建高质量机器学习数据集的全流程指南-优快云博客

构建高质量机器学习数据集的全流程指南

1. 数据存储与版本管理

在机器学习领域，数据存储和版本管理是构建有效模型的基础。目前有多种数据存储方案可供选择，如 Google Cloud Vertex AI Feature Store，同时也有像 Feast 这样可以部署在自有基础设施上的开源替代方案。

现在，有一些专门为创建边缘 AI 应用程序设计的端到端平台，其中部分平台包含了自己的数据存储解决方案，这些方案通常类似于特征存储，但专为边缘 AI 项目设计，可能包含用于探索和理解传感器数据的工具，或提供与嵌入式软件开发工具的集成点，能够与深度学习工作流程的其他阶段紧密集成。

数据版本管理在现代软件工程中至关重要。在机器学习系统中，不仅代码需要进行版本管理，数据集同样需要。数据版本管理工具可以记录训练特定模型所使用的数据，帮助追溯数据来源，将生产中的问题追溯到单个数据样本。这对于以数据为中心的机器学习非常有用，能够测试不同版本的数据集，了解哪个版本在实际应用中表现更好。

2. 数据存入存储系统的方法

如果要为项目捕获传感器数据，将其存入数据存储系统的方法取决于具体情况：
- 现场连接良好 ：
- 若有足够的连接性、带宽和能量，可直接从边缘设备将数据推送到 API。使用专为边缘 AI 设计且具有适用于设备端 API 的端到端平台时，此操作最为简便。
- 也可以使用 IoT 平台，通过其专门的 API 上传数据，再使用其他系统将数据从 IoT 平台复制到数据集。
- 通常不建议直接从嵌入式设备将数据上传到云对象存储，因为其 API 并非为嵌入式使用而设计，数据结构效率低