
自然语言处理
she201007780123
这个作者很懒,什么都没留下…
展开
-
基于SVD和pLSA算法的文本主题分类-- 追根究底
基于向量空间的文本的缺点https://blog.youkuaiyun.com/she201007780123/article/details/90815756 在上面的这篇文章中本人介绍了基于向量空间的文本分类算法,但是现在很多文本分类任务都会使用到LDA模型,那么向量空间模型有什么缺陷呢,首先向量空间没有能力去解决一词多意,就是一个词有很多不同的解释,或者一意多词的问题,比如说同义词,比如吃...原创 2019-06-06 01:47:39 · 812 阅读 · 0 评论 -
LDA模型 -- 追根究底
Beta分布首先讲一下数学基础,就是狄里克莱分布。首先要讲的就是beta分布. Beta分布的表达式是这样的,X表示的就是随机变量,就是随机变量,表示gama函数,理解就是输入一个数据进去返回一个值给你,输入是n+1的时候,返回的是n的阶层,输入的是小数的话返回的是别的数字,可以理解为阶层的推广,beta分...原创 2019-06-08 00:40:18 · 455 阅读 · 0 评论 -
文本分类 -- 追根究底
特征提取样本如何量化 在对文本进行分类之前,首先要在文本里面找到特征,特征是什么呢,通常会凭着业务直觉加以选择,比如说要找垃圾邮件,根据我对垃圾邮件的认识,可能出现了一些特别的词就是垃圾邮件,比如“代考”、“淘宝”这些很可能是垃圾邮件,正常的邮件很少出现这些词,当然这些特征合不合理,需要通过数据的粗分析才能决定,选择好特征之后可以加上权重,就是说使用一个数值来描述特征强烈的程度,以及...原创 2019-06-05 01:26:15 · 475 阅读 · 0 评论