构建 AI 产品的基础设施与工具全解析
1. AI/ML 现状与准备
目前,大多数公司并未长期运行 AI/ML 项目,也没有专门的团队。像 MAANG(Meta、亚马逊、苹果、网飞、谷歌)这样的科技公司在 AI/ML 管理方面引领着行业规范,但多数需要采用 AI 的公司并非科技企业,它们在应对 AI 采用给工程团队带来的技术债务方面准备不足。
为启动 AI 项目而采取的捷径,可能需要进行代码重构,或改变数据存储和管理方式。因此,制定 AI 采用策略和规划至关重要。这也是众多基础设施即服务(IaaS)服务涌现的原因,它们能帮助工程团队在未来需要变更时保持灵活性。随着时间推移,维持 AI 团队正常运作所需的基础设施也会发生变化。使用 IaaS 提供商的优势在于,你可以运行所有项目,并且只需为 AI 开发人员实际使用数据训练模型的时间付费。
2. 部署策略
当你对所选模型(包括其性能和错误率)满意,且拥有良好的基础设施来支持产品和所选 AI 模型的用例时,就可以进入将代码部署到生产环境的最后一步。制定适合产品和组织的部署策略,是持续维护工作的一部分。你需要考虑以下几点:
- 模型再训练频率 :确定多久对模型进行一次再训练,以及更新训练数据,以防止模型性能下降和数据漂移。
- 性能监控系统 :建立一个持续监控模型性能的系统,此过程会因产品和业务的不同而有所差异,特别是再训练期间系统需要停机。
部署是一个动态过程,因为模型主要是对现实世界的数据进行预测。所以,根据数据的实际情况,你可能需要对部署投入更多或更少的精力。例如,在一家 ML 房地产科技公司工作时,由于疫
超级会员免费看
订阅专栏 解锁全文
4551

被折叠的 条评论
为什么被折叠?



