从数据中学习语言模型
在数据处理和机器学习领域,从数据中学习语言模型是一项重要的任务。本文将探讨如何从数据中学习语言模型,特别是通过质量关系(Mass Relations)来实现分类和预测。
1. 半朴素贝叶斯模型与属性分组
假设 $m(o/c_j)$ 是一种半独立的质量关系,这等价于半朴素贝叶斯模型。在这个模型中,属性组 $S_i$ 的条件概率根据质量关系 $m_i(o/c_j)$ 进行评估。然而,这种方法的一个基本困难是确定属性的有效划分。
为了解决这个问题,我们可以使用分组算法来学习质量关系中的依赖关系。以下是一些相关的定义和算法:
- 重要性度量(Importance Measure) :对于任何输入向量 $S_i$,可以使用贝叶斯定理估计类 $c_j$ 的概率。属性组 $S_i$ 对于类 $c_j$ 的重要性度量定义如下:
- 若属性分组 $S_i$ 能有效区分类 $c_j$ 与其他类,则在 $DB - DB_j$ 中的元素的 $P(c_j|S_i)$ 相对较低,而在 $DB_j$ 中的元素的 $P(c_j|S_i)$ 相对较高。此时,$IM(S_i|c_j)$ 将接近 1。
- 改进度量(Improvement Measure) :假设我们有两个属性子集 $S_1$ 和 $S_2$,将它们组合所获得的重要性改进可以通过以下方式计算:
- 改进度量可以作为启发式方法应用于一系列标准搜索算法中。合并属性分组 $S_1$ 和 $S_2$ 的决策基于 $IPM(S_1, S_2, c_j)$ 是否超过某个预定义的阈值。
基于改进度量,我们可以
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



