
[文本分类]
秦朝老亖
这个作者很懒,什么都没留下…
展开
-
LSA&SVD基本概念
矩阵 M 的奇异值分解为 ,其中U是m×m阶酉矩阵;Σ是半正定m×n阶对角矩阵;而V*,即V的共轭转置,是n×n阶酉矩阵。这样的分解就称作M的奇异值分解。Σ对角线上的元素Σi,i即为M的奇异值。 伪逆:将矩阵主对角线上每个非零元素都求倒数之后再转置得到的。 SVD的应用:求伪逆;平行奇异值模型;矩阵近似值; 奇异值分解在统计中的主要应用为主成分分析(PCA),种数据分析方原创 2015-10-12 13:49:32 · 1138 阅读 · 0 评论 -
文本分类入门(番外篇)特征选择与特征权重计算的区别
原文:http://azh.iteye.com/blog/1871796 在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡转载 2015-11-25 12:20:10 · 314 阅读 · 0 评论 -
朴素贝叶斯算法
原文地址:http://yuanmuqiuyu2000.blog.sohu.com/198789412.html 基于朴素贝叶斯的文本分类算法 作者: 灵魂机器 联系方式:soulmachine@gmail.com 作者博客:www.yanjiuyanjiu.com 摘要:常用的文本分类方法有支持向量机、K-近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现,运行速转载 2015-11-25 18:49:37 · 1075 阅读 · 0 评论 -
朴素贝叶斯算法中的M估计
参考:http://blog.youkuaiyun.com/cyningsun/article/details/8671975原创 2015-11-25 20:06:07 · 1599 阅读 · 0 评论 -
混淆类别(主题)判别技术(更新完善)
针对文本之间信息交叉比较严重,导致分类器对某些类别区分能力比较弱的问题,可以引入基于聚类算法(Clustering Algorithm)的混淆类别识别技术,通过消除混淆类别之间的共有特征,以进一步提高分类器的分类性能。 研究混淆类别识别技术原创 2016-04-19 16:05:07 · 469 阅读 · 0 评论