在QCon SF 2024上, Grammarly 的Wenjie Zi介绍了机器学习项目固有的挑战。她首先引用了令人畏惧的统计数据:历史研究显示失败率高达 85%,而最近的研究表明几乎没有改善。这种高失败率凸显了该领域的一个重大问题:尽管人工智能技术取得了进步,但在商业环境中有效应用这些技术仍然是一个巨大的挑战。
演讲者强调了机器学习项目中的五个常见陷阱。第一个是解决错误的问题,即重点关注与实际业务需求不相符的问题。第二个是数据带来的挑战,例如质量差、数量有限或损害模型的偏差。第三个是将成功的模型转变为产品的困难,通常是由于集成和部署的挑战。第四种是离线成功但在线失败,即模型在受控设置中表现良好,但在实际使用中失败。最后,看不见的非技术障碍,例如利益相关者的抵制或组织失调,可能会阻碍进展。
机器学习界有句名言:垃圾进,垃圾出。机器学习项目完全依赖于识别数据模式。因此,如果数据有缺陷,研究得出的结论很可能不可信。 ——子文杰
Wenjie 演讲的中心主题是机器学习项目的生命周期,通常包括定义业务目标、收集和处理数据、训练模型、部署模型以及监控其性能等阶段。她指出,由于生命周期的复杂性,故障经常发生在各个阶段。她强调从一开始就有明确的项目目标的重要性。
讨论的另一个主要挑战是数据管理,用“垃圾输入,垃圾输出”一词来概括。数据的质量直接影响机器学习项目的成功。数据泄漏、样本量不足和数据集有偏差等问题可能会导致有缺陷的结论和模型失败。訾指出,即使是来自大型科技公司和顶尖大学的复杂模型也无法避免这些基本错误。
从模型开发到生产的过渡(称为MLOps)是另一个关键领域。这需要采用涉及多个团队和系统的集成方法,这会增加失败的风险。她强调需要强大的基础设施和运营来支持机器学习应用程序,并指出实际的机器学习代码通常只构成整个系统的一小部分。
后来,Zi 主张“快速失败”方法对机器学习项目有益。通过快速识别不可行的项目,团队可以避免进一步浪费资源,并转向更有前途的举措。这种方法是更广泛的文化转变的一部分,这种转变将失败视为学习机会。
在演讲接近尾声时,Zi 分享了克服这些挑战的策略,主张明确的业务目标定义、严格的数据管理实践以及对机器学习项目的端到端集成的高度关注。 Zi 在结束演讲时引用了查理·芒格 (Charlie Munger) 的一句话,强调从自己的经验中学习并尽量减少对二手知识的依赖的重要性,这一观点在机器学习社区中引起了深刻的共鸣。