
平时收藏
rein07
这个作者很懒,什么都没留下…
展开
-
支持向量机导论
<br /><br /> 今天开始看《支持向量机导论》,前面三章讲的还是通俗易懂的。但是第四章看了一节之后,就让人坠入云里雾里了。其中VC维数讲了长长的一大段,看了几遍都是不知所云。于是我只能BAIDU下了。果然,网上很多人对这个问题相当关心的,也有些很经典的解释。我摘录如下:<br />VC维被认为是数学和计算机科学中非常重要的定量化概念,它可用来刻画分类系统的性能.<br /> 模式识别中VC维的直观定义是:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2h种形式分开,则称转载 2011-03-14 10:45:00 · 1682 阅读 · 1 评论 -
文本分类入门(番外篇)特征选择与特征权重计算的区别
<br />在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。<br />文本分类本质上也是一个模式识别的问题,因此我想借用一个更直观的例子来说说特征选择和权重量化到底各自是什么东西,当然,一旦解转载 2011-03-16 14:32:00 · 825 阅读 · 0 评论 -
寻找丑数(Ugly Number)
我们把只包含因子2、3和5的数称作丑数(Ugly Number)。例如6、8都是丑数,但14不是,因为它包含因子7。习惯上我们把1当做是第一个丑数。求按从小到大的顺序的第1500个丑数下面是一道在网络上广为流传的面试题,据说google曾经采用过这道题。所谓一个数转载 2011-08-19 17:20:26 · 1178 阅读 · 0 评论