特征存储与数据移动服务:挑战、需求与模式
1. 特征注册表模式的弱点
特征注册表模式在实际应用中存在一些弱点,主要包括:
- 潜在的性能瓶颈 :在服务数百个模型时,可能会出现性能瓶颈。
- 特征分析的扩展性问题 :随着特征数量的增加,难以进行连续的特征分析。
目前,在模型服务和训练过程中,没有一种原则性的方法来访问特征。特征难以在多个机器学习管道之间轻松复用,机器学习项目往往孤立运行,缺乏协作和复用。当新数据到来时,由于特征深度嵌入在机器学习管道中,无法确切确定哪些特征需要重新计算,通常需要运行整个机器学习管道来更新特征。而特征存储可以解决这些问题,并在开发机器学习模型时实现规模经济。
2. 数据移动服务的背景与挑战
在解决业务问题的过程中,常常需要发现现有的数据集及其元数据,以及可用于开发见解的可复用工件和特征。通常,需要聚合来自不同数据仓库或应用数据库的数据属性,以构建见解。例如,收入仪表盘可能需要将计费、产品代码和特殊优惠等属性移动到一个公共数据存储中,然后进行查询和连接,以每小时或实时更新仪表盘。数据用户花费约 16% 的时间来移动数据。
当前,数据移动面临着一些痛点,包括:
- 跨异构数据源的协调 :难以协调跨异构数据源的数据移动。
- 数据正确性验证 :需要持续验证源和目标之间的数据正确性。
- 模式和配置更改的适应 :需要适应数据源中常见的模式或配置更改。
确保不同来
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



