- 博客(2)
- 收藏
- 关注
原创 EM算法详细推导及讲解
极大似然估计是一种应用很广泛的参数估计方法。例如我手头有一些东北人的身高的数据,又知道身高的概率模型是高斯分布,那么利用极大化似然函数的方法可以估计出高斯分布的两个参数,均值和方差。这个方法基本上所有概率课本上都会讲,我这就不多说了,不清楚的请百度。 然而现在我面临的是这种情况,我手上的数据是四川人和东北人的身高合集,然而对于其中具体的每一个数据,并没有标定出它来自“东北人”还是“四川人”,我想如果把这个数据集的概率密度画出来,大约是这个样子: 其实这个双峰的概率密度函数是有模型的,称作高斯混合模
2020-11-30 17:15:42
1035
原创 自然语言处理之N-Gram模型
自然语言处理之N-Gram模型 1.什么是语言模型 语言模型就是这样一个模型:对于任意的词序列,它能够计算出这个序列是一句话的概率。或者说语言模型能预测单词序列的下一个词是什么。 2. 什么是N-Gram模型 N-Gram是一种基于统计语言模型的算法。其基本思想是将文本里面的内容按照字节及逆行大小为N的滑动窗口曹祖,形成了长度为N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种g
2020-11-23 16:34:39
1138
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人