利用机器学习构建实用模型
1. 前期工作回顾与总结
在项目前期,团队确定了所提议的应用与运营效率相关。虽应用中无个人数据,但数据治理问题被视为关键。若应用内数据管理不善,结果可能产生误导。同时,团队也认识到人为因素和监督是重要关注点,并决定在冲刺阶段 2 解决这些问题,确保建模技术能支持洞察和与预测分析的交互。此外,团队计划使用可禁用系统中预测分析的控制措施,并采用仅趋势或稳态预测。还准备、存档并向团队传达了一份伦理报告。
拿到数据集后,团队开展了一些简单的建模工作,以创建支持评估待生成模型的基线信息,并为团队提供有关未来挑战的反馈。Danish 迅速为库存需求和客户流失率实施了回归模型,提供了基线性能指标。结果显示,即使在他使用的有限数据集和样本中,也有一些强烈的信号。在快速测试中,模型预测与观察到的波动相关性良好。不过,Danish 对数据做了很多假设,大家都清楚问题远未解决。
在冲刺回顾会议上,准备并展示了关于数据调查、应用定义、探索性数据分析(EDA)和伦理报告结果等重要元素的说明,以此为依据向客户请求批准冲刺阶段 1。随后制定并商定了冲刺阶段 2 的待办事项,从而开启了冲刺阶段 2。
1.1 前期工作要点总结
- 通过开展 EDA,可深入了解开发符合项目要求的模型的潜力。
- 一旦数据集可用于分析,就能系统地探索非结构化数据。
- 使用图形(图表和绘图)来探索和说明数据特征,可视化方法很有启发性,向未来参与项目的人员传达发现的信息很重要。
- 简单方法(计数、大小、标签等)能为非结构化数据提供一些见解,现代方法(嵌入、映射等)可进一步刻画这些数据集,应探索现
超级会员免费看
订阅专栏 解锁全文
8109

被折叠的 条评论
为什么被折叠?



