《强尼的数据分析漫谈》

《强尼的数据分析漫谈》 第一篇

数据科学项目的系统化流程

在这里插入图片描述

1.准备阶段
1)目标:明确项目目标,即要充分沟通需求内容、尽可能保证需求的合理性以及细化目标。注:项目目标是项目的先决条件,好的需求文件可以事半功倍。与需求提出者的沟通至关重要,好的问题往往很重要。PS:如果是需求提出者,在提交需求时要明确要获得的目的,清晰的目标是良好的开始。
2)探索:即探索和收集可用的数据,数据可能是公司内已有的、或者是没有存储的、需要协调存取等。
3)整理:对数据进行初步的整理,此步骤整理不探求数据的业务含义,仅对于数据的格式、完整性、健康度进行整理,即数据体检。
4)评估:对数据的整体情况进行评估,一般利用描述性统计、抽样统计、图表化分析、假设检验等;目的是进行数据预处理,评估数据的分布,进一步了解数据的情况。PS:对于数据分析部门的同事可能业务背景欠缺,在数据理解和评估过程中多询问业务同事这样对评估和构建结果事半功倍;对业务部门同事而言,如果可以提前准备业务背景或者指标或者权重说明,也是很好的。
2.构建阶段
1)计划:在初步发现的基础上调整预期和目标。制定项目进度计划,充分考虑不确定因素的影响。
2)分析:包含,数据统计分析,涉及机器学习的特征工程&统计建模等。
3)实现:1)统计分析得出分析结论报告;2)机器学习项目:特征工程+构建模型(多个模型测试准确度并优化模型);3)bi报表类项目,实现报表可视化。
4)优化:即通过进一步的数据对项目进行优化。
5)执行:团队每一个人(不同角色)明确执行的工作内容。
3.完成
1)交付:项目交付
2)修改:与需求提出者进行有效沟通,满足最终的业务需求
3)收尾:项目关键文档及结论存档。

*参考资料
《数据即未来》[美] Brain Godsey

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值