机器学习项目的挑战、角色与敏捷管理
1. 数据整合与模型部署难题
1.1 无法整合的数据源
一家全球医疗公司允许员工购买小型运营设备,如培养皿、移液管、铅笔和 IT 设备等。然而,不同国家的部门使用不同供应商的产品目录。这些产品功能相当,但价格有差异且定价方法不同(如批量折扣),且缺乏对不同供应商定价的总体了解。虽然很多数据驱动的解决方案(包括机器学习)能改善这种情况并节省成本,但存储在不同系统中的数据存在诸多问题。例如,产品在不同系统中有不同名称、属于不同产品组,无法整合所有产品目录;部分目录过时,不能反映准确价格。数据质量不足以支持数据驱动的解决方案。
1.2 模型部署成为瓶颈
机器学习、深度学习和人工智能的热潮使公司对这些领域的兴趣和投资大幅增加,许多公司设立了机器学习和人工智能部门。但很多公司的努力并未取得成果,许多机器学习项目在实施过程中卡在模型部署阶段,公司有大量机器学习模型原型,但实际部署并集成到现有业务流程中的却很少。
导致项目在这一阶段失败的原因有:
- 开发与部署本质不同 :开发机器学习模型是机器学习项目,而部署是软件工程项目,适用于一方的解决方案和变通方法不一定适用于另一方。例如,开发阶段通常从相关源检索数据并在本地计算机上用本地数据开发模型,但部署时模型需在运营 IT 系统上运行,要集成到现有数据管道中。
- 缺乏必要技能 :在机器学习和人工智能领域很难找到合适的人才,尤其是有软件工程背景和数据处理经验的数据工程师,而这正是部署所需的角色。
- 技术挑战大 :公司的数
超级会员免费看
订阅专栏 解锁全文
700

被折叠的 条评论
为什么被折叠?



