
分类
文章平均质量分 64
记忆星空
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ID3 and C4.5 Decision Tree
ID3决策树主要是用来进行分类,它的主要做法还是比较简单的,但是基于是递归的建树,所以写起代码来不是那么好写,它的做法大概是: 对于初始样本,选择一个最优的feature(怎么样算是最优,下面会解释),将一个点根据这个feature的不同取值,分成不同的分支,也就是说feature取几个值,就有几个分支,然后递归它的每一个分支,直到达到某些条件则停止递归。原创 2015-04-14 16:29:09 · 685 阅读 · 0 评论 -
Fisher's linear discriminant(Linear Discriminant Analysis)
Fisher's linear discriminant的主要思想是(简单起见这里先讨论分成2类的情况)将高维的数据投影到一维,在这一维上,我们就能轻易得到分类。 以下两幅图分别来自prml 和the elements,我觉得非常好的说明了在分成两类的情况下Fisher's linear discriminant的思想(左图的投影没有右图的好):原创 2015-01-21 20:37:36 · 7528 阅读 · 4 评论 -
Preliminary understanding of bagging and boosting
boosting and bagging这两个概念在统计学习理论中还是挺重要的,两者都采取训练多次的做法,但是还是有一些区别,先说比较简单的bagging。 bagging 也称bootstrap aggregation,它其实就是抽样了很多次,然后每次对抽样训练出一个分类器,那么最后的分类结果是基于这些所有分类器投票的结果。 bagging的具体做法: 1 从样本集中用Bootstrap(原创 2015-04-19 20:12:49 · 573 阅读 · 0 评论 -
CART Decision Tree and two pruning theory
之前讲过ID3和C4.5决策树,CART和他们的区别虽然不大,但还是有一些值得说明的区别: 1 CART节点分支只能是两个,就是说二分,对于连续型feature,那么就和C4.5的方法一样,选取最优的分界。如果是离散型feature,那么我们想要分成两部分,就显得比较复杂,比如说1,2,3分成两部分,可以是{1,2},{3}和{1,3},{2},{2,3},{1}。这里可以说一个公式,n个属性,原创 2015-04-16 11:23:12 · 785 阅读 · 0 评论 -
Logistic regression ,Softmax regression and Newton's method
首先说的是Logistic regression,z这个回归的相对还是比较简单的,但是一般来说他只能用于分两类(0或1)的情况,虽然我曾在Andrew Ng的课上好像记得也可以处理多类的情况,但是 Softmax regression貌似是一个更好的处理多类情况的一个方法。 Logistic regression的思想其实非常简单,就是将负无穷到正无穷的区间用一个函数映射到了0到1的区间。这个函原创 2015-04-12 21:04:26 · 872 阅读 · 0 评论 -
About Bayesian Theory
当我们要判断一个x他属于哪一类时,也就是要判断他的y值,那么可以通过这个公式转移,朴素贝叶斯分类器的做法比较简单,直接比较分母,因为分子是相同的,我只要找到使得分子最大的那个y,就是x属于的类别,但是这里需要注意的有两点: 1 P(x/y)应该可以写成P(x1/y)*p(x2/y)*....p(xn/y),这需要这些属性条件独立才能这样拆开来做。 2 对于P(xi/y)这个值,如果一旦出现了0原创 2015-04-18 15:58:31 · 658 阅读 · 0 评论