
数据挖掘
文章平均质量分 88
ExtraMan
这个作者很懒,什么都没留下…
展开
-
贝叶斯文本分类例子和原理
基本定义:原创 2014-11-23 11:29:38 · 1960 阅读 · 0 评论 -
Cart文本分类算法原理和例子
ID3使用信息增益作为属性选择标准,c4.5使用信息增益率作为属性选择标准。Cart算法使用GIni系数来度量对某个属性变量测试输出的狼族取值的差异性,理想的分组应该尽量使两组中样本输出变量的差异性总和达到最小,即“纯度”最大,也就是是两组输出变量取值的差异性下降最快,“纯度”增加最快。 设t为分类回归树中的某个节点,称函数 为Gini系数,k为当前属性下测原创 2014-12-05 11:30:04 · 3804 阅读 · 0 评论 -
基本k-mean聚类的文本聚类算法原理和例子
基于质心的划分方法是研究最多的算法,包括k-mean聚类算法及其各种变体,这些变体依据初始簇的选择,对象的划分、相识度的计算方法、簇中心的计算方法不同而不同。基于质心的划分方法将簇中所有对象的平均值看做簇的质心,根据一个数据对象与簇质心的距离,将该对象赋予最近的簇。在这类方法中,需要给定划分的簇个数k,首先得到k个初始划分的集合,然后采用地带重定位技术,通过将对象从一个簇移到另外一个簇来改进划分的原创 2014-12-05 09:59:53 · 2787 阅读 · 0 评论 -
mysql字符乱码详解
在处理mysql中文时,我们常常遇到字符编码的问题,本来主要讲解其乱码产生的原因,并给出解决方案。 字符原理 Latin1是ISO-8859-1的别名是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号 GBK总体编码范围为 8140-FEFE原创 2014-12-29 20:57:43 · 792 阅读 · 0 评论