机器学习中的单峰与混合模型
1. n - 元语言模型的最大似然估计
在自然语言处理中,n - 元语言模型是一种常见的统计语言模型。对于二元模型,其最大似然估计(MLE)公式为:
[p_{MLE}(w_j|w_i) = \frac{r(w_iw_j)}{r(w_i)} (1 \leq i, j \leq M)]
对于三元模型,其最大似然估计公式为:
[p_{MLE}(w_k|w_i, w_j) = \frac{r(w_iw_jw_k)}{r(w_iw_j)} (1 \leq i, j, k \leq M)]
其中,(r(w_i)) 表示单词 (w_i) 在训练语料中的出现频率,(r(w_iw_j)) 表示二元组 (w_iw_j) 的出现频率,(r(w_iw_jw_k)) 表示三元组 (w_iw_jw_k) 的出现频率。
然而,这些公式存在一个问题:如果某个二元组或三元组在训练语料中从未出现,其概率将为 0。在自然语言中,有大量这样的二元组和三元组。一个未出现的词项会使整个序列的观测概率为 0,从而严重影响预测结果。为了解决数据稀疏导致的 0 概率问题,n - 元模型的 MLE 公式需要与一些平滑技术相结合。
2. 广义线性模型(GLMs)
广义线性模型(GLMs)是一类单峰生成模型,最初从普通线性回归扩展而来,用于处理非高斯分布。目前,GLMs 是统计学中处理二元、分类和计数数据的常用方法。
2.1 GLMs 的关键组件
GLMs 的关键组件包括:
- 基础单峰概率分布 :假设输出 (y) 遵循一个简单的单峰概率分布,分布的选择
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



