- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 LDA模型 -- 追根究底
Beta分布首先讲一下数学基础,就是狄里克莱分布。首先要讲的就是beta分布. Beta分布的表达式是这样的,X表示的就是随机变量,就是随机变量,表示gama函数,理解就是输入一个数据进去返回一个值给你,输入是n+1的时候,返回的是n的阶层,输入的是小数的话返回的是别的数字,可以理解为阶层的推广,beta分...
2019-06-08 00:40:18
443
原创 基于SVD和pLSA算法的文本主题分类-- 追根究底
基于向量空间的文本的缺点https://blog.youkuaiyun.com/she201007780123/article/details/90815756 在上面的这篇文章中本人介绍了基于向量空间的文本分类算法,但是现在很多文本分类任务都会使用到LDA模型,那么向量空间模型有什么缺陷呢,首先向量空间没有能力去解决一词多意,就是一个词有很多不同的解释,或者一意多词的问题,比如说同义词,比如吃...
2019-06-06 01:47:39
788
原创 文本分类 -- 追根究底
特征提取样本如何量化 在对文本进行分类之前,首先要在文本里面找到特征,特征是什么呢,通常会凭着业务直觉加以选择,比如说要找垃圾邮件,根据我对垃圾邮件的认识,可能出现了一些特别的词就是垃圾邮件,比如“代考”、“淘宝”这些很可能是垃圾邮件,正常的邮件很少出现这些词,当然这些特征合不合理,需要通过数据的粗分析才能决定,选择好特征之后可以加上权重,就是说使用一个数值来描述特征强烈的程度,以及...
2019-06-05 01:26:15
450
原创 EM算法 -- AI基础算法从简单到深
EM算法就是通常说的让期望最大化的算法,EM算法的核心同时也是基础的部分是最大似然估计,首先通过一个简单的例子来理解EM算法的过程,然后讲解EM在数学上是怎么进行推导和原理证明的,后续会讲解EM算法的应用,也就是高斯混合模型,并且使用GMM做聚类的小案例。最大似然估计:例一: 首先举一个例子,初步理解最大似然估计到底做了什么事情。 假如去赌场,但是不知道能不能赚钱,你就站在门口,...
2019-06-04 00:14:51
836
原创 追根究底 - 条件随机场
条件随机场的作用条件随机场解决的问题是在已知观测序列的情况下,如何求解隐藏状态,比如说已知语音"我爱自然语言处理",如何求解每个语音对应的文字,通过X将Y1-Yn求解出来,与HMM不同,在HMM中要求Y1-Yn是一个序列,在条件随机场中Y1-Yn可以是一个无向图,并且x不是条件独立的,而是作为一个整体进行考虑,这也是条件随机场的优势,因为要求Y1-Yn是一个序列显然是不合理的。 ...
2019-05-28 09:45:53
321
原创 追根究底 - 马尔科夫网络
无向图解释 假如我们有四个人A、B、C、D,A和B可以互相交流,B和C可以互相交流,C和D可以互相交流,D和A可以互相交流,但是A和C之间不能交流,B和D之间不能交流。 ...
2019-05-26 23:46:05
696
原创 追根究底 - 最大熵模型
什么是熵熵在统计物理中用于度量一个热力学系统的无序程度。热力学第二定律,又称“熵增 定律”,表明了在自然过程中,一个孤立系统的总混乱度(即“熵”)不会减小,在信息论中,熵被用来衡量一个随机变量出现的期望值。它代表了在被接收乊前,信 号传输过程中损失的信息量,又被称为信息熵。信息熵也称信源熵、平均自信息量。 在1948年,香农将热力学的熵,引入到信息论,因此它又被称为香农熵。最大熵模型 - ...
2019-05-24 23:43:32
659
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人