
机器学习
文章平均质量分 87
ML_R
厚德,博学,笃行,创新,信义仁爱,思学志远
展开
-
2.特征工程:如何剔除“无效”特征
回顾上节内容特征工程就是数据加工,数据加工的本质从统计的角度看是还原真实,找到真实分布率。从机器学习角度看是在此基础上是之更加符合模型。需要先对对数据错误值(在不可改变数据源的情况下,基于现实近似于异常值(又包括了空缺值)),*但注意:异常值不一定是错误值,空缺值不一定是异常值。*需要理解,但在实际使用过程中考虑较少。至于原因由于已经在上节叙述了所以在此不做赘述。剔除特征背后的逻辑——相关性分析相对无效特征的剔除,用什么方法解决?在这之前需要先对原理进行考虑。剔除无效特征,是针对于模型预测结果来原创 2021-08-14 12:53:11 · 3535 阅读 · 0 评论 -
1. 特征工程:原理及框架
特征工程内涵对于特征工程的理解,无需对此进行严格的划分,因为依据不同的标准,各个领域都会有不同。只需要知道,类似于对数据进行加工的都是特征工程,这个概念本身也不重要,不必深究。总之,特征工程就是数据加工加工数据原理和方法如何加工数据是重点。首先要明确我们做数据加工,目的是什么?事实上,根据不同的业务和问题需求,我们用到的方法是不同的,可是遵循的原理确实一致的,那就是还原真实。通常我们在现实生活中如何还原真实,根据以前的案例?这只是表象,其实根据的是统计学原理,这是大数定理所决定的当然还有其他著名原创 2021-08-10 22:46:32 · 484 阅读 · 0 评论 -
ID3、C4.5、CART、GBDT、XGBoost、RF、AdaBoost等模型原理及联系
DT、CART、GBDT、XGBoost、RF、AdaBoostContentsDT、CART、GBDT、XGBoost、RF、AdaBoost联系决策树 (decision tree, DT)分类与回归树 (classification and regression tree, CART)梯度提升决策树 (gradient boost decision tree, GBDT)极致版梯度提升决策树 (extreme gradient boost, XGBoost)随机森林 (random forest,原创 2021-08-07 22:55:05 · 179 阅读 · 0 评论 -
统计机器学习原理
机器学习原理内涵机器学习就是让计算机不再只会通过命令执行任务。过程定义解决问题的一套方法。简单来说叫做算法,复杂来说叫做模型。通常,机器学习方法都是复杂模型,即使是最简单的一元线性回归都是有很多个算法结构组成,所以机器学习第一步是构建模型。已经明白其实模型就是更大规模的算法。这一步骤虽然是传统计算机能做的但是唯一不同的是,它打破了之前的瓶颈,有了自学习的性质。所以模型本质依然是算法。如何理解这句话?也就是说机器学习模型学习的是它自身模型的参数。所以,目标就明确了,那就是要找到一系列模型参数的一原创 2021-08-05 08:59:13 · 341 阅读 · 0 评论