
机器学习
刘金超DT
让数据说话,让未来透明
展开
-
构建决策树基本算法之ID3与C4.5
带着问题看文章一直以来是我认为最有效率的可以让自己一直专注的学习方法。话不多说,先抛出ID3和C4.5的两个概念总结:1、ID3算法:使用信息增益进行特征选择2、C4.5算法:使用信息增益率进行特征选择C4.5是对ID3算法的一种优化,克服了信息增益在选择特征时偏向于特征个数较多的不足那么什么是ID3,什么又是C4.5呢?想了解这2中高大上的算法,就要回溯到高中时候物理学中的熵。物理...原创 2019-08-19 16:15:36 · 1344 阅读 · 0 评论 -
机器学子之集成分类算法
一、构建决策树的基本算法:ID3算法:使用信息增益进行特征选择C4.5算法:使用信息增益率进行特征选择,克服了信息增益选择特征的时候偏向于特征个数较多的不足CART算法:分类回归树,属于二叉树,既可用于分类,分类树用到基尼系数最小化原则,也可以用于回归预测,回归树用平方差最小准则。依据损失函数最小标准进行树的剪枝,防止过拟合。二、集成学习算法分为两种第一种:在相同训练数据中随机选取特征来...原创 2019-08-27 15:52:46 · 1280 阅读 · 0 评论 -
PCA数学原理分析
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。数据的向量表示及降维问题...原创 2019-08-29 15:57:19 · 279 阅读 · 0 评论 -
超参数搜索
超参数搜索网格搜索并行网格搜索模型的超参数指的是模型训练前事先设定的参数(Hyperparameters),如K近邻中的K值,SVM支持向量机中的不同核函数等。超参数的选择是无限制的,如果给定有限的时间,有两种方法:(1)验证人工预设的几种超参数的组合。(2)可以通过启发式的搜索方法对超参数组合进行调优。这种方法就是网格搜索。由于超参数的验证过程之间彼此独立,网格搜索也有并行搜索的版本。...原创 2019-10-04 20:32:04 · 784 阅读 · 0 评论 -
K-Means中K值的选取
K-Means中K值的选择(1)拍脑袋法(2)肘部法则(Elbow Method)(3)间隔统计量(Gap Statistic)(4)轮廓系数(Silhouette Coefficient)(5)Canopy算法K-Means是一个很简单的聚类方法,说它简单,主要原因是使用它时只需设置一个K值(设置需要将数据聚成几类)。但问题是,有时候我们拿到的数据根本不知道要分为几类,对于二维的数据,我们还能...原创 2019-10-02 22:27:54 · 21830 阅读 · 3 评论 -
梯度下降法与牛顿法的比较
牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。如果更通俗地说的话,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。...原创 2019-10-01 17:28:55 · 527 阅读 · 1 评论 -
牛顿法
牛顿法(1)泰勒公式(2)求解方程根(3)实战牛顿法求解方程(4)牛顿迭代法(5)多维特征的牛顿迭代法(6)两个改进方法(7)牛顿法求解实例(1)泰勒公式下面是两个例子:(2)求解方程根不是所有的方程f(x)=0都有求根公式,或者求根公式很复杂,导致求解困难,可以利用牛顿法,可以迭代求解。利用泰勒公式,在X0处展开到一阶通过下图理解迭代求解的过程:(3)实战牛顿法求解方程...原创 2019-10-01 17:25:47 · 210 阅读 · 0 评论 -
梯度下降法
梯度下降法(1)偏导数(2)方向导数(3)梯度(4)梯度下降(5)梯度下降求解函数极值(6)梯度下降法总结(7)梯度下降法求解线性回归问题参数的最优解(8)批量梯度下降(9)随机梯度下降法SGD(10)Mini-batch()为什么使用梯度下降法?(1)在机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中,...原创 2019-10-01 17:12:07 · 569 阅读 · 0 评论 -
极大似然估计
极大似然估计极大似然估计是概率的log概率的最大化问题,即max(log(P)),log函数是单调函数,通常取底数大于1的情况,所以log函数不影响原来概率大小的判断。如果取极大似然函数的相反数,得到的就是我们熟悉的损失函数cost,同时极大似然函数也对应的极小化我们的损失函数。为什么要有极大似然估计例子:我与一位猎人一起外出打猎,一只野兔从前方穿过,只听到一声枪响,野兔应声倒下。问是谁打中...原创 2019-10-01 16:42:44 · 2184 阅读 · 0 评论 -
特征归一化处理
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-09-13 22:46:27 · 1775 阅读 · 0 评论 -
机器学习中的维度
维度是什么?“维度”这个词在机器学习里面,应该是一个高频词,它经常出现在人们的视野中,比如说随机森林是通过随机抽取特征来建树,以避免高维计算;再比如说,sklearn中导入特征矩阵,必须是至少二维;特征选择的目的是通过降维来降低算法的计算成本等等。那么“维度”到底是什么呢?对于数组和series来说对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是...原创 2019-09-13 11:55:12 · 1448 阅读 · 0 评论 -
AI必知的十大深度学习算法
首先先让我们来定义一下什么是“深度学习”。对很多人来说,给“深度学习”下一个定义确实很有挑战,因为在过去的十年中,它的形...转载 2019-09-04 20:55:00 · 2229 阅读 · 1 评论 -
缺失值处理
将缺失值的特征或样本删除缺失值插补技术原创 2019-10-04 21:10:32 · 286 阅读 · 0 评论