4、机器学习流程与数据准备探索全解析

机器学习流程与数据准备探索全解析

1. 机器学习流程概述

在现实世界中,每个用例都有不同的建模需求,因此很难提供一个通用的流程来解释如何构建机器学习模型或数据产品。不过,为行业中的任何建模项目制定关键里程碑的最佳实践指南是可行的。机器学习流程主要有四个阶段,即PEBE:Plan(规划)、Explore(探索)、Build(构建)和Evaluate(评估)。

1.1 规划(Plan)

此阶段是整个流程的关键组成部分。需要投入大量精力来理解需求,确定可用的所有数据源,并制定解决需求中所识别问题的方法。数据收集是整个流程的核心,但为了保证分析和模型构建最终输出的完整性和准确性,还需要花费大量精力清理数据。

1.2 探索(Explore)

探索阶段为分析项目奠定基础。在此阶段,首先要详细分析数据中的可能性、见解、范围、隐藏模式、挑战和错误。会使用大量统计和可视化工具来完成这一阶段。为了在项目后期需要修改时提供更大的灵活性,该阶段分为两部分:
- 快速初步分析 :评估数据结构,包括检查命名约定、识别重复项、合并数据,必要时进一步清理数据。初步数据分析有助于确定是否有额外的数据需求,因此流程中设置了一个小的反馈循环。
- 更严格的分析 :通过创建假设、使用各种技术对数据进行采样、检查样本的统计属性以及进行统计测试来拒绝或接受假设。

1.3 构建(Build)

大多数分析项目在第一或第二阶段就夭折了,但进入此阶段的项目有很大潜力转化为数据产品。此阶段需要仔细研究是需要机器学习模型,还是前两个阶段的简单描述性分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值