机器学习算法
文章平均质量分 51
christ1750
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
模型融合技术的两种方法:Bagging Boosting
Bagging主要在优化variance(即模型的鲁棒性)boosting主要在优化bias(即模型的精确性)上一节说过了 error= variance + bias 下面分别说一下怎么优化的:bagging:Boostrap Aggregating 意思是重采样 然后在每个样本上训练出来的模型取平均值Boosting:是迭代算法,每一次迭代都根据上一次迭代的预测结果对样原创 2016-03-16 19:16:13 · 4106 阅读 · 0 评论 -
模型融合的主要方法
提交文件创建融合模型(只需要之前得到的结果,不需要重新训练)Bagging 投票融合(Voting) 加权融合(weighing) 平均融合(Averaging) 排序平均(Rank averaging) 对于auc,其本质就是一个排序,预测出的auc的值可以转化为排名的特征,然后在进行融合(参考DC人品预测大赛) 堆栈泛化创建融合模型Boosting 堆栈泛化(stacking)原创 2016-04-08 18:44:35 · 4492 阅读 · 0 评论 -
机器学习中的正则化
L0 L1 L2 核范数规则化:从贝叶斯的角度看,规则化对应于模型的先验概率。规则化是结构风险最小化的策略的实现,是在经验风险上加一个正则化项或惩罚项第一项:Loss 第二项:规则化项loss :square loss 最小二乘Hinge Loss SVMexp-Loss: Boostinglog Loss: LR 规则化项:模型越复杂,规则化原创 2016-03-15 15:34:25 · 1293 阅读 · 0 评论 -
关于one-hot编码引发相关问题的一点感想
one-hot编码为什么可以解决类别型数据的离散值问题 首先,one-hot编码是N位状态寄存器为N个状态进行编码的方式 eg:高、中、低不可分,→ 用0 0 0 三位编码之后变得可分了,并且成为互相独立的事件 → 类似 SVM中,原本线性不可分的特征,经过project之后到高维之后变得可分了 GBDT处理高维稀疏矩阵的时候效果并不好,即使是低维的稀疏矩阵也未必比SVM好 Tree原创 2016-04-07 21:06:52 · 9943 阅读 · 0 评论 -
一个成功的Git分支模型
原文链接 : http://nvie.com/posts/a-successful-git-branching-model/在这篇文章中,我将要介绍版本的发展模式,在过去的一年中我已经介绍了一些我的工程(无论是私有还有工作的),那些已经被证明是非常成功的。我已经打算写这篇很久了。但是一直到最近我都没有找到时间彻底的去做这件事。我不会过多的去讨论工程的细节问题,几乎都是关于分支策略和版本管理翻译 2016-04-05 18:35:05 · 429 阅读 · 0 评论 -
推荐系统的评价指标
准确率与召回率 广泛用于信息检索和统计学分类领域的两个度量值 查准率:其中精度是检索出相关文档数与文档总数的比率。 查全率:检索出的相关文档数和文档库中所有的相关文档数的比率 正确率(P)=提取出的正确信息条数/提取出的信息条数 召回率(R)=提取出的正确信息条数/样本中的信息条数两者取值在0到1之间,数值越接近1,查准率或者查全率就越高。 F值 = 正确率*召回率*2/正确率和召回率(原创 2016-03-21 17:05:58 · 584 阅读 · 0 评论 -
one-hot编码
为什么要使用onehot编码呢?因为大部分的机器学习模型需要的事连续的特征,特征有可能是分类值时就需要对特征进行处理,数字表示的时候效率就会提高很多,自然状态码为:000,001,010,011,100,101 独热编码为:000001,000010,000100,001000,010000,100000 这样做的好处主要有: 解决了分类器不好处理属性数据的问题 在一定程度上也起到了扩充特征原创 2016-03-19 21:19:08 · 1586 阅读 · 0 评论 -
机器学习算法总结
回归分析 回归是这样一种建模方式,它先确定一个衡量模型预测误差的量,然后通过这个量来反复优化变量之间的关系。回归方法是统计学的主要应用,被归为统计机器学习。这有些让人迷惑,因为我们可以用回归来指代一类问题和一类算法。实际上,回归是一个过程。以下是一些例子: · 普通最小二乘法 · 逻辑回归 · 逐步回归 · 多元自适应样条回归(MARS) · 局部多项式回归拟合(LOESS)基于实例的学原创 2016-03-19 21:06:28 · 854 阅读 · 0 评论 -
决策树对比
CART:Classfication and Regression Tree 是分类/回归树,cart是一颗二叉树,分类标准是基尼指数:CART做回归数时,使用的是平方误差最小准则。基尼系数:Gini(p) = sigma(每一个类)p(1-p)回归树:属性值为连续实数。将整个输入空间划分为m快,每一块以其平均值作为输出。原创 2016-03-17 19:42:06 · 869 阅读 · 0 评论 -
欢迎使用优快云-markdown编辑器
最近一直在研究LDA的东西,就打算随便写写自己的看法,看到网上说起LDA的东西很多,大多数是以以下的角度谈到的:一个分布(狄利克雷分布)一个采样(Gibbs采样)一个模型(pLSA) 主要的难点在于 埋下来以后再慢慢写原创 2016-03-04 23:11:58 · 284 阅读 · 0 评论 -
K折交叉验证中k值大小和bias、variance的关系
error = Bias(偏差) + Variance(方差) + noise(噪声)模型越复杂,bias越小,Variance越大,越容易过拟合;相反,模型越简单,bias越大,variance越小,越容易欠拟合Variance是形容一个模型的稳定性的,bias是形容某一次样本的结果和真实值的偏差原创 2016-03-16 19:17:01 · 5981 阅读 · 1 评论 -
机器学习数据挖掘书单
机器学习实战 数据挖掘-实用机器学习技术 数据挖掘:概念与技术 统计学习基础 数据挖掘、推理与预测 机器学习 统计学习方法 机器学习导论 机器学习及其应用 模式分类 推荐系统实战 深入搜索引擎:海量信息的压缩、索引和查询 概率论与数理统计 大数据:互联网大规模数据挖掘与分布式处理 web数据挖掘 数据之巅 深入浅出统计学 矩阵分析原创 2016-04-11 09:06:35 · 628 阅读 · 0 评论
分享