11、机器学习数据分析生命周期全解析

机器学习数据分析生命周期全解析

1. 前期准备与假设定义

在开展机器学习数据分析项目时,有几个关键问题需要首先明确。
- 数据来源 :要确定数据是来自内部数据源还是外部数据源,是单一数据源还是多个数据源。
- 领域专家 :明确组织内部或外部谁能作为项目的领域专家(SME)。
- 范围变更处理 :确定如何处理项目范围的变更,例如设立变更控制委员会等。

接着可以形成初始假设(IHs)来批准或否决数据。鼓励多构建几个初始假设,以便为后续的假设检验生成更多的思路。初始假设是后续阶段分析测试的基础,也是进一步学习的基石。

在选择解决特定问题所需的数据时,要同时考虑数据来源及其分类,如结构化、半结构化或非结构化数据。还要考虑测试假设所需数据的体积、类型和时间跨度,并确定数据来源,以确保数据易于访问。

假设定义完成后,要对数据情况进行全面诊断。然后列出从数据准备阶段到模型投入使用阶段所需的工具和技术。如果在这个阶段进行数据探索,就能明确数据量,有助于对数据进行结构化和格式化处理。最后,要借助项目领域专家的力量,审查和验证信息的范围。

在进入下一阶段之前,需要确保以下几点:
- 有足够的信息来起草分析计划并进行同行评审。
- 对业务问题有清晰的理解,并且有解决问题的分步方法。
- 有足够的领域专家在问题的领域范围内提供支持。
- 确定了项目的成功标准。

2. 数据准备与探索性数据分析

数据发现阶段的主要目标是确保“有高质量的数据可用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值