十个例子,教你用统计学方法高效完成机器学习项目(上)【楚才国科】

统计学和机器学习是两个联系特别紧密的领域

事实上,这两者的界限有时候非常模糊。然而有一些明显属于统计学领域的方法,不仅可用于机器学习的项目,并且极具价值。公平地说,需要统计学方法来有效地完成机器学习预测建模项目。

在这里插入图片描述
一、问题架构:

这包括了问题类型的选择,例如是回归还是分类,也许还有这个问题的输入和输出的结构及类型。问题的架构并不是一直都很清晰,对于某个领域的新手,可能需要对这个领域中的观察值进行一些深入探索。

统计方法在问题的架构阶段有助于对数据的探索,其中包括:

1、探索性的数据分析。为了从数据中探索到特别的观点,从而进行的汇总和可视化。

2、数据挖掘。自动探索数据间的结构关系和模式。

二、数据理解:

数据理解意思是对变量的分布和变量之间的关系有一个更详细的理解。这些知识其中一部分来自于这个领域的专业知识,或者需要专业知识去解释。

用在理解数据的统计学模型的两类主流分支是:

1、汇总统计。使用统计数值来汇总变量间的分布和关系的方法。

2、数据可视化。总结变量间的分布和关系的方法需要用到可视化的方法,例如:图表,绘图和图形。

在这里插入图片描述
三、数据清洗:

虽然数据是数字化的,但存在一些过程会降低数据的精确性,反过来,后续用到数据的过程及模型也会受其影响。例如:数据破坏、数据损失、数据错误。

识别和修复这些问题数据的过程也叫做数据清洗。

统计方法应用于数据清洗中例子有:

1、异常点检测。在数据分布中识别出离期望值很远的观察值的方法。

2、数据填补。修复或填补观察值中损坏或缺失数据的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值