
文本分类
she201007780123
这个作者很懒,什么都没留下…
展开
-
基于SVD和pLSA算法的文本主题分类-- 追根究底
基于向量空间的文本的缺点https://blog.youkuaiyun.com/she201007780123/article/details/90815756 在上面的这篇文章中本人介绍了基于向量空间的文本分类算法,但是现在很多文本分类任务都会使用到LDA模型,那么向量空间模型有什么缺陷呢,首先向量空间没有能力去解决一词多意,就是一个词有很多不同的解释,或者一意多词的问题,比如说同义词,比如吃...原创 2019-06-06 01:47:39 · 812 阅读 · 0 评论 -
文本分类 -- 追根究底
特征提取样本如何量化 在对文本进行分类之前,首先要在文本里面找到特征,特征是什么呢,通常会凭着业务直觉加以选择,比如说要找垃圾邮件,根据我对垃圾邮件的认识,可能出现了一些特别的词就是垃圾邮件,比如“代考”、“淘宝”这些很可能是垃圾邮件,正常的邮件很少出现这些词,当然这些特征合不合理,需要通过数据的粗分析才能决定,选择好特征之后可以加上权重,就是说使用一个数值来描述特征强烈的程度,以及...原创 2019-06-05 01:26:15 · 475 阅读 · 0 评论