
机器学习
文章平均质量分 76
sandyzhs
这个作者很懒,什么都没留下…
展开
-
机器学习 之 一句话解释 关键概念
在机器学习中,很多算法是很复杂的,很难容易的形象的解释,但是也有很多是算法复杂,但是理解起来简单。本文试图把学过的一些知识逐步有系统的用一二句话给小白解释清楚,一二句话解释不清楚的,也不勉强,我会给出高手文章的链接或者我自己日记的链接,希望这个页面作为自己的一个系统化的备忘,以及小白的简单入门。另外,这个页面是逐步更新的。机器学习基础先行知识凸优化c原创 2015-07-03 14:12:50 · 2198 阅读 · 0 评论 -
DBSCAN - 基于密度的聚类算法
是什么DBSCAN(Density-Based Spatial Clustering of Application with Noise),是一个典型的基于密度的聚类算法。目标是寻找被低密度区域分离的高密度区域,通俗点说就是把扎堆的点(高密度)找出来,而点很少很稀疏的地方(低密度)就作为分割区域。关键概念1.与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的原创 2015-07-06 14:09:22 · 14523 阅读 · 2 评论 -
随想 - 缘起
随想 == 随意在想,随时在想,随时更新。写这个机器学习blog的原因:1). 根据从前的经验,学习过的东西,要总结以及书面化,才会印象更加深刻。所以,第一个原因是自己别忘了并且加深理解和加深印象。2). 万一有哪个小白需要入门,万一凑巧搜到了这个地方,可以给一个简洁的入门帮助。所以第二个原因是为了方便别人。目标:1). 我不是数学家,不是科学家,也不是搞研究的原创 2015-07-03 16:35:41 · 668 阅读 · 0 评论 -
Ensemble methods(组合方法,集成方法)
机器学习的算法中,讨论的最多的是某种特定的算法,比如Decision Tree,KNN等,在实际工作以及kaggle竞赛中,Ensemble methods(组合方法)的效果往往是最好的,当然需要消耗的训练时间也会拉长。所谓Ensemble methods,就是把几种机器学习的算法组合到一起,或者把一种算法的不同参数组合到一起。基本上分为如下两类:Averaging methods原创 2015-08-25 13:59:45 · 14138 阅读 · 0 评论 -
Ensemble methods 之 Random Forest(随机森林)
1. 是什么如前面所说,决策树有时候会出现过拟合(overfit)的问题,越强大的决策树越可能出现过拟合,但是如果几个模型或者一个模型的几个参数组合起来,就很容易弥补这种问题。所以,随机森林就是一种ensemble方法中的bagging方法,用原始数据进行训练至完全分裂最后得到多个决策树,对新的数据的预测就是对所有的决策树取平均值来进行预测。2. 关键概念采样。样本数量为N原创 2015-08-25 14:59:08 · 6987 阅读 · 0 评论 -
Decision Tree 决策树 - ID3, C45, C50, CART...
是什么决策树是最简单的也是最具解释性和表达性的一种机器学习算法,既可以处理分类问题(ID3,C45,C50),也可以处理回归问题(CART)。它是根据特征(feature)的值逐步把数据分类,直到所有的叶子节点属于同一个类型结束。注意决策树都是贪婪的。关键概念1. 如何确定哪个特征被优先选择用来分类。根据某一个特征划分数据集,其划分前后信息熵会有变化。优先选择的特征是让给让原创 2015-07-09 17:47:24 · 13898 阅读 · 0 评论 -
scikit-learn介绍
为什么介绍scikit-learnpython实现的,而不是R,免费。没有和别的库做过比较,但是自身的文档足够好,例子足够多。算法足够全,至少对于我的水平。基于上面的几个原因,在写博客的过程中,就以scikit-learn作为主线来进行学习。在学会在sklearn中如何使用的基础上,同时扩展算法原理以及基础。什么是scikit-learn在s原创 2015-08-17 17:25:42 · 8686 阅读 · 1 评论