
机器学习
weixin_43167121
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习-决策树--基础知识总结
1.决策树定义父节点和子节点是相对的,说白了子节点由父节点根据某一规则分裂而来,然后子节点作为新的父亲节点继续分裂,直至不能分裂为止。而根节点是没有父节点的节点,即初始分裂节点,叶子节点是没有子节点的节点,如下图所示:2.决策树的构建流程:这就引出了最重要的问题:1.数据如何分割2.怎么选择分割依据的属性3.什么时候停止分裂对于1:假设已经选择了一个分割属性,如何分割若是离散型...原创 2019-03-02 17:40:56 · 812 阅读 · 0 评论 -
偏差和方差
看这个:https://blog.youkuaiyun.com/hai008007/article/details/79777232转载 2019-08-13 10:01:56 · 156 阅读 · 0 评论 -
adboost,随机森林,gbdt,xgboost,lightgbm区别
Xgboost和gbdt区别:1)在使用CART作为基分类器时,XGBoost显式地加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。2)GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数。3)传统的GBDT采用CART作为基分类器,XGBoost支持多种类型的基分类器,比如线性分类器。4)传统的...原创 2019-08-15 14:42:58 · 510 阅读 · 0 评论 -
softmax多分类
直接看链接就好https://testerhome.com/topics/11262转载 2019-08-15 10:06:34 · 176 阅读 · 0 评论 -
BN讲的很好的一篇文章
博客https://www.cnblogs.com/eilearn/p/9780696.html转载 2019-07-10 17:38:33 · 264 阅读 · 0 评论 -
BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm总结
https://blog.youkuaiyun.com/liuxiao214/article/details/81037416转载 2019-06-10 11:14:03 · 291 阅读 · 0 评论 -
机器学习平衡正负样本方法
https://www.zhihu.com/question/56662976按照周志华老师《机器学习》中所说,假如反例998个,正例2个,那么只要学习方法学习一个永远将样本预测为反例的学习器,那么精度就能达到99.8%,这样的学习器是没有价值的。关于正负样本不均衡的问题,最常见的方法就是过采样(如SMOTE)、欠采样(如EasyEnsemble)了,而像lr这样直接用概率做分类的,本来分类阈...原创 2019-05-11 15:21:29 · 1778 阅读 · 0 评论 -
几种常见机器学习距离公式
1.欧氏距离2.曼哈顿距离图中红线代表曼哈顿距离,绿色代表欧氏距离,曼哈顿距离的命名原因是从规划为方型建筑区块的城市(如曼哈顿)间,最短的行车路径而来3.切比雪夫距离国际象棋棋盘上二个位置间的切比雪夫距离是指王要从一个位子移至另一个位子需要走的步数。由于王可以往斜前或斜后方向移动一格,因此可以较有效率的到达目的的格子。4.皮尔斯相关系数5.KL散度...原创 2019-05-11 14:52:47 · 553 阅读 · 0 评论 -
牛顿法、拟牛顿法、hession矩阵
先看hession矩阵:牛顿法的优缺点总结:优点:二阶收敛,收敛速度快;缺点:牛顿法是一种迭代算法,每一步都需要求解目标函数的Hessian矩阵的逆矩阵,计算比较复杂。 关于牛顿法和梯度下降法的效率对比:从本质上去看,牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。如果更通俗地说的话,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个...原创 2019-04-26 12:22:30 · 491 阅读 · 0 评论 -
解释为什么用梯度下降而不是直接求导数为0的解?
问题:在计算线性回归最大似然估计的解的时候,最后的推导结果是为什么不直接求出θ?而是一步步迭代求出θ?原因因此,梯度下降可以节省大量的计算时间。此外,它的完成方式允许一个简单的并行化,即在多个处理器或机器上分配计算。此外,当您只将一部分数据保留在内存中时,会出现梯度下降的版本,从而降低了对计算机内存的要求。总的来说,对于特大问题,它比线性代数解决方案更有效。当您有数千个变量(如机器...原创 2019-04-21 12:51:58 · 6619 阅读 · 1 评论 -
L1、L2正则化区别和数学原理,以及什么是Elastic Net(弹性网络)正则项
先说结论:L1正则化使得模型更加稀疏,L2使得模型参数更趋近于0再说原因:1.Lasso2.Ridge regression转载 2019-04-21 12:17:10 · 1345 阅读 · 0 评论 -
通俗了解神经网络如何避免陷入局部最优
1.以不同的参数值初始化多个神经网络,取最小的作为结果就好比企业轮岗, 多试试从不同的岗位做起,能避免陷入只认为当前职位最合适2.使用“模拟退火”技术就好比 当前虽然觉得自己过的挺好了,但是也试着跳出舒适区出去看看,万一有更舒服的地方呢,但是,随着年龄(迭代次数)增加,这种冒险行(跳出舒适区)为的概率越来越小。使用“模拟退火”技术,“模拟退火”在每一步都会以一定的概率接受比当前更差的结果,...原创 2019-04-20 22:23:01 · 16121 阅读 · 0 评论 -
SVM原理,及和逻辑回归区别
由逻辑回归引入SVM损失函数为:SVM简化一下逻辑回归的损失函数,如蓝色折现所示:绿色是蓝色是.由于的限制 θ不会太大,若P也不够大,就很难实现所以促使分类器向下面这样演化:核函数 kernellandmark怎么选?参考链接:https://www.jianshu.com/p/b9e3fd894770https://blog.csdn...原创 2019-04-20 18:26:34 · 3368 阅读 · 3 评论 -
PCA主成分分析
参考链接:http://www.360doc.com/content/18/0913/19/17157244_786423114.shtml转载 2019-03-10 17:48:16 · 188 阅读 · 0 评论 -
Xgboost通俗理解和总结
目标函数:其中的误差函数可以自定义(满足二阶可导),正则项可以L1或L2gi = 前t-1棵树的预测与真实值的损失函数在y(t-1)处的导数q(x)就是 输入在叶子节点上的映射,w(qx) 就是映射对应的打分就是对将要生成的树的打分的惩罚项将样本数换算为每个节点上的样本数j,总共T个节点,每个节点的得分w是一样的w衡量打多少分是最好,L就是衡量一个树有多好正则化:...原创 2019-03-03 12:51:30 · 1222 阅读 · 0 评论 -
一文通俗理解最大似然估计· 看不懂你打我,无公式
最近恶补理论知识,发现似然估计一直都是会用,但是意义掌握的不好,梳理一下思路意义直白点就是:已知一个结果已经发生了,推测最有可能导致结果发生的一个“原因”(参数)举个别人博客的例子:假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后...原创 2019-03-06 10:33:17 · 1546 阅读 · 0 评论 -
逻辑回归深挖细节
看似简单,包含很多细节见链接https://blog.youkuaiyun.com/dzysunshine/article/details/88825051转载 2019-09-07 15:15:52 · 247 阅读 · 0 评论