3、机器学习项目全流程:从规划到部署的关键要点

机器学习项目全流程:从规划到部署的关键要点

1. 快速解决问题与聚焦核心

在处理问题时,快速取得成果是每个数据科学家都应追求的目标。例如,当面对一个看似复杂的问题时,若能花几分钟进行规划,全面理解用例,就能避免数周甚至数月的精力、时间和金钱的浪费。以一个简单的分析查询为例,其目的是确定客户所在的时区,并分析每个客户在当地时间的历史邮件打开情况。通过专注于要构建的内容以及构建的原因,数据科学(DS)团队和业务部门能更有成效地引导讨论。避免过早讨论如何构建以及何时完成构建,有助于团队聚焦问题本身,让业务部门关注项目需求。

2. 项目范围界定与研究

在项目开发中,内部客户(业务部门)通常关注两个问题:项目能否解决他们的问题以及需要多长时间。下面通过一个欺诈检测项目的案例,来探讨项目范围界定和研究阶段可能出现的两种极端情况。

假设有两家公司的DS团队,都在为解决公司计费系统中不断升级的欺诈事件而开发解决方案。
- 团队A :主要由初级数据科学家组成,他们在获得项目细节和期望后,立即搜索博客文章。他们在互联网上搜索“检测支付欺诈”和“欺诈算法”,找到咨询公司的数百个结果、一些可能从未将模型投入生产的初级数据科学家撰写的高级博客文章,以及一些基本的开源数据示例。团队A估计大约两周就能构建出XGBoost二元分类模型。然而,实际问题远比博客文章中的示例复杂,仅类别不平衡问题就难以在博客的简短篇幅中有效阐述,最终导致项目失败。
- 团队B :由一群拥有博士学位的学术研究人员组成。他们首先深入研究关于欺诈建模的已发表论文,花了几天时间阅读期刊和论文,掌握了大量涵盖最新欺诈活动检测

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值