
机器学习之模型概论
文章平均质量分 89
夏天7788
知行合一
展开
-
转:正则项的详细分析
转自:https://zhuanlan.zhihu.com/p/55251269当模型的复杂度达到一定程度时,则模型处于过拟合状态。本文首先讨论如何去理解复杂度这一概念,然后回顾贝叶斯思想,并从贝叶斯的角度去理解正则项以及正则项降低模型复杂度的方法,最后总结全文。理解复杂度 回顾贝叶斯 贝叶斯角度下的正则项 正则项降低模型复杂度的方法 总结理解复杂度怎么去理解复杂度,可能有人认为模型的参数越多,模型越复杂。其实最好是通过结果去理解复杂度,比如当模型的训练误差很小且测试误差很大时,则模型转载 2021-04-27 17:29:28 · 637 阅读 · 0 评论 -
ROC和AUC理解
from:https://www.cnblogs.com/king-lps/p/9501572.html一. ROC曲线概念二分类问题在机器学习中是一个很常见的问题,经常会用到。ROC(Receiver Operating Characteristic) 曲线和AUC(Area Under the Curve) 值常被用来评价一个二值分类器 (binary classifier) ...转载 2019-04-10 09:15:57 · 650 阅读 · 0 评论 -
转:理解机器学习中的偏差与方差
from:http://blog.youkuaiyun.com/simple_the_best/article/details/71167786学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差转载 2018-01-13 10:06:33 · 636 阅读 · 0 评论 -
转:机器学习-回归模型-欠拟合和过拟合
from:http://blog.youkuaiyun.com/chenguolinblog/article/details/524047651. 什么是欠拟合和过拟合先看三张图片,这三张图片是线性回归模型 拟合的函数和训练集的关系第一张图片拟合的函数和训练集误差较大,我们称这种情况为 欠拟合第二张图片拟合的函数和训练集误差较小,我们称这种情况为 合适拟合第三张图片拟合的函数完美的匹配转载 2018-01-12 17:51:56 · 317 阅读 · 0 评论 -
转:机器学习算法中的过拟合与欠拟合
from:https://www.cnblogs.com/nxld/p/6058782.html在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。机器学习中的逼近目标函数过程监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y).Y=f(X)Y=f(X)这种特性描述可以用于定义分类和预测问题和机器学习算法的领域。从训转载 2018-01-12 17:49:53 · 311 阅读 · 0 评论 -
机器学习常见算法分类汇总
转自:http://www.ctocio.com/hotnews/15919.html机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给转载 2016-12-18 19:06:44 · 310 阅读 · 0 评论 -
分类还是回归
回归的输出是连续的,比如:1、2、3、4、5、6。注意,所谓“连续”意味着是有序的,是排序的。比如输出为3,那么我们可以肯定真实为3、4、5、6的可能性顺序减小,真实为2、1的可能性也是顺序减小。分类的输出是:A类、B类、C类。注意,所谓“分类”意味着ABC之间不存在排序,不存在谁比谁更亲密或更远、可能或更不可能。输出为A,那么不意味着真实为B的可能性比C更大。作者:匿名用户转载 2018-01-03 10:44:18 · 394 阅读 · 0 评论 -
正则化
regularizer 看字面意思都能意会到本意了吧。我被坑的才叫久,因为我是很晚才看到这个词的英文的,中文译成正则项简直是坑人,所以之前都是从它的作用上倒过来理解的,直到某次无意间看到了英文才顿悟了这个东西的存在的意图。译成“规则项”难道不比“正则项”好么,译成“正则项”简直就是在术语化在门槛化,让领域外的人难以get到它的本意。啰嗦完了,答你。规则化就是...向你的模型加入某些规则转载 2017-12-27 12:12:01 · 308 阅读 · 0 评论 -
算法的简单归类–看完这些顿时感觉算法不再那么神秘了
http://buluo.qq.com/p/detail.html?bid=102594&pid=9104210-1472808015无论是机器学习、模式识别、数据挖掘、统计学习、计算机视觉、语音识别、自然语言处理都涉及到算法。1.树:决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评转载 2016-09-26 12:46:09 · 1595 阅读 · 0 评论 -
关注Kaggle比赛以及常用算法
个人觉得Kaggle是训练data mining特别好的地方,而对于机器学习的提升并不是特别大。你可以去看已经结束的比赛的winner的解决方案,大部分都是ensemble learning,很少有数学上极其优美的解法。可以从以下几个方面入手:1. Feature Engineering- continue variable- categorical variable2.原创 2017-01-06 09:26:55 · 2573 阅读 · 0 评论 -
KAGGLE ENSEMBLING GUIDE---模型融合
from:https://mlwave.com/kaggle-ensembling-guide/Model ensembling is a very powerful technique to increase accuracy on a variety of ML tasks. In this article I will share my ensembling approach转载 2017-04-19 11:34:31 · 2749 阅读 · 0 评论 -
Andrew Ng的 Machine Learning 读书笔记 Lecture 4(数据归一化,调参)
from:http://blog.youkuaiyun.com/lujiandong1/article/details/44702297数据归一化: 归一化化定义:我是这样认为的,归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。 方法有如下: 1、线性函数转转载 2017-05-31 13:19:50 · 473 阅读 · 0 评论 -
机器学习:更多的数据总是优于更好的算法吗?
转:http://www.youkuaiyun.com/article/2015-06-18/2825003【编者按】在机器学习中,更多的数据总是比更好的算法好吗?对于Quora上的这个问题,Netflix公司工程总监Xavier Amatriain认为,很多时候增加更多的样本到训练集并不会提高模型的性能,而如果没有合理的方法,数据就会成为噪音。他通过Netflix的实践经验推导出最终的结论:我们转载 2017-08-11 10:45:33 · 494 阅读 · 0 评论 -
机器学习中的偏差,方差,训练误差,测试误差相关
转:http://blog.youkuaiyun.com/mosbest/article/details/51477833https://www.zhihu.com/question/27068705转载 2017-08-14 11:25:20 · 4303 阅读 · 0 评论