机器学习数据分析生命周期全解析
1. 前期准备与假设定义
在开展机器学习数据分析项目时,有几个关键问题需要首先明确。
- 数据来源 :要确定数据是来自内部数据源还是外部数据源,是单一数据源还是多个数据源。
- 领域专家 :明确组织内部或外部谁能作为项目的领域专家(SME)。
- 范围变更处理 :确定如何处理项目范围的变更,例如设立变更控制委员会等。
接着可以形成初始假设(IHs)来批准或否决数据。鼓励多构建几个初始假设,以便为后续的假设检验生成更多的思路。初始假设是后续阶段分析测试的基础,也是进一步学习的基石。
在选择解决特定问题所需的数据时,要同时考虑数据来源及其分类,如结构化、半结构化或非结构化数据。还要考虑测试假设所需数据的体积、类型和时间跨度,并确定数据来源,以确保数据易于访问。
假设定义完成后,要对数据情况进行全面诊断。然后列出从数据准备阶段到模型投入使用阶段所需的工具和技术。如果在这个阶段进行数据探索,就能明确数据量,有助于对数据进行结构化和格式化处理。最后,要借助项目领域专家的力量,审查和验证信息的范围。
在进入下一阶段之前,需要确保以下几点:
- 有足够的信息来起草分析计划并进行同行评审。
- 对业务问题有清晰的理解,并且有解决问题的分步方法。
- 有足够的领域专家在问题的领域范围内提供支持。
- 确定了项目的成功标准。
2. 数据准备与探索性数据分析
数据发现阶段的主要目标是确保“有高质量的数据可用
超级会员免费看
订阅专栏 解锁全文
2478

被折叠的 条评论
为什么被折叠?



