构建高质量机器学习数据集的全流程指南
1. 数据存储与版本管理
在机器学习领域,数据存储和版本管理是构建有效模型的基础。目前有多种数据存储方案可供选择,如 Google Cloud Vertex AI Feature Store,同时也有像 Feast 这样可以部署在自有基础设施上的开源替代方案。
现在,有一些专门为创建边缘 AI 应用程序设计的端到端平台,其中部分平台包含了自己的数据存储解决方案,这些方案通常类似于特征存储,但专为边缘 AI 项目设计,可能包含用于探索和理解传感器数据的工具,或提供与嵌入式软件开发工具的集成点,能够与深度学习工作流程的其他阶段紧密集成。
数据版本管理在现代软件工程中至关重要。在机器学习系统中,不仅代码需要进行版本管理,数据集同样需要。数据版本管理工具可以记录训练特定模型所使用的数据,帮助追溯数据来源,将生产中的问题追溯到单个数据样本。这对于以数据为中心的机器学习非常有用,能够测试不同版本的数据集,了解哪个版本在实际应用中表现更好。
2. 数据存入存储系统的方法
如果要为项目捕获传感器数据,将其存入数据存储系统的方法取决于具体情况:
- 现场连接良好 :
- 若有足够的连接性、带宽和能量,可直接从边缘设备将数据推送到 API。使用专为边缘 AI 设计且具有适用于设备端 API 的端到端平台时,此操作最为简便。
- 也可以使用 IoT 平台,通过其专门的 API 上传数据,再使用其他系统将数据从 IoT 平台复制到数据集。
- 通常不建议直接从嵌入式设备将数据上传到云对象存储,因为其 API 并非为嵌入式使用而设计,数据结构效率低
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



