1. 假设一段句子为集合S,其中表示n个词。
2. 目标:计算S在文本中出现的概率,即概率P(S) = P() (1.1)
3. 展开P() = P(
)·P(
)·P(
)···P(
) (1.2)
4. 为了简化(1.2)引入一种偷懒的模型,即马尔科夫假设:
P() = P(
)·P(
)·P(
)···P(
) (1.3)
5. 简化的目的就是为了减少计算量,不信的话你自己去算算(1.2),简化的效果就是,把条件概率的条件给压缩了,也就是是说一个词的出现的条件概率只和它的前一个词有关,而不是前一堆词。即条件概率和
相关,从而只需要计算:
P() =
(1.4)
6. 现在只需估计出以下两个概率,为什么要估计,数学不是一门很严谨的学科吗?其实是因为,我们很多时候手里只有数据,计算机又没有那么多完美假设,好比积分的定义,在计算机里边基本很难达到要求。
联合概率: (1.5)
边缘概率: (1.6)
对于(1.5)和(1.6)的估计,我们假设手里有一个我们建立好的语义库,里边基本包含了一门语言的语句,这个集合表示为R,从而我们统计在R中计算相邻的两个词和
的频率,条件是我们的语义库R尽可能的丰富,且尽可能的统计两个相邻词的频次。进而可以估计出:
进而估计出:P()
参考:吴军老师《数学之美》第2版,人民邮电出版社。
本文探讨了如何通过马尔科夫假设简化文本中句子出现概率的计算过程,详细解释了条件概率的压缩原理及其在语言模型中的应用,并介绍了如何利用语义库进行概率估计。
5436

被折叠的 条评论
为什么被折叠?



