记录第一遍没看懂的
记录觉得有用的
其他章节:
第一章
第三章
第五章
第六章
第七章
第八章
第九章
第十章
十一章
十二章
十三章
十四章
十五章
十六章
隐马尔可夫模型
概率图模型可大致分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网;第二类是使用无向图表示变量间的相关关系,称为无向图模型或马尔可夫网。隐马尔可夫模型是结构最筒单的动态贝叶斯网,是一种著名的有向图模型。
"马尔可夫链"表示:系统下一时刻的状态仅由当前状态决定,不依赖于以往的任何状态。基于这种依赖关系,所有变量的联合概率分布为:
需要的三组参数:
1.状态转移概率:模型在各个状态间转换的概率。表示在任意时刻
t
t
t,若状态为
s
i
s_i
si,则在下一时刻状态为
s
j
s_j
sj的概率。
2.输出观测概率:模型根据当前状态获得各个观测值的概率。表示在任意时刻
t
t
t,若状态为
s
i
s_i
si,则观测值
o
j
o_j
oj 被获取的概率。
3.初始状态概率:模型在初始时刻各状态出现的概率。表示模型的初始状态为
s
i
s_i
si的概率。
马尔可夫随机场
上一节介绍的有向图,这一节介绍的是著名的无向图模型:马尔可夫随机场。图中每个结点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系。
把极大团的势函数连乘起来(不是概率的连乘)
“全局马尔可夫性”:给定两个变量子集的分离集,则这两个变量子集条件独立。
条件随机场
条件随机场是一种判别式无向图模型,它试图对多个变量在给定观测值后的条件概率进行建模。公式(14.10)表明,去除v的所有点构成的条件和v的邻接结点构成的条件概率相等,也就是说直接相连的邻接节点已经能提供所有的信息了,则(y,x)构成一个条件随机场
条件随机场和马尔可夫随机场均使用团上的势函数定义概率,两者在形式上没有显著区别;但条件随机场处理的是条件概率,而马尔可夫随机场处理的是联合概率。
学习与推断
基于概率图模型定义的联合概率分布,我们能对目标变量的边际分布或以某些可观测变量为条件的条件分布进行推断。这个实际上就是用已知推断未知,用联合概率得到边际概率。
精确推断
精确推断的实质是一类动态规划算法,它利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。
1.变量消去法:通过利用乘法对加法的分配律,把多个变量的积的求和问题,转化为对部分变量交替进行求积与求和的问题。这种转化使得每次的求和与求积运算限制在局部,仅与部分变量有关,从而简化了计算。但是若需计算多个边际分布,重复使用变量消去法将会造成大量的冗余计算。
2.信念传播算法将变量消去法中的求和操作看作一个消息传递过程,较好地解决了求解多个边际分布时的重复计算问题。首先,指定一个根结点,从所有叶结点开始向根结点传递消息,直到根结点收到所有邻接结点的消息;然后,从根结点开始向叶结点传递消息,直到所有叶结点均收到消息。
近似推断
1.MCMC采样
在很多任务中,我们关心某些概率分布并非因为对这些概率分布本身感兴趣,而是要基于它们计算某些期望,并且还可能进一步基于这些期望做出决策。基于这个思路,假定我们的目标是计算函数f(x)在概率密度函数p(x)下的期望:
E
p
[
f
]
=
∫
f
(
x
)
p
(
x
)
d
x
E_p[f]=\int f(x)p(x)dx
Ep[f]=∫f(x)p(x)dx,则可根据
p
(
x
)
p(x)
p(x)抽取一组样本,然后计算f(x)在这些样本上的均值,以此来近似目标期望。
概率图模型中最常用的采样技术是马尔可夫链蒙特卡罗方法(MCMC)。其基本思想是:针对待采样的目标分布,先设法构造一条马尔可夫链,使其收敛至平稳分布恰为待估计参数的后验分布,然后通过这条马尔可夫链来产生符合后验分布的样本,并基于这些样本来进行估计。
关于采样方法,有概率分布采样、接受-拒绝采样、重要性采样等,可以通过:MCMC采样方法概述 了解一下。
2.变分推断
变分推断通过使用己知简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布。
公式的详细推导我在查资料的时候看到一篇,可以参考:变分推断(Variational Inference)
话题模型
话题模型是一族生成式有向图模型,主要用于处理离散型的数据。其概念可以通过图14.12来理解:其中灰圆
W
t
,
n
W_{t,n}
Wt,n在第
t
t
t篇文章里第
n
n
n个词出现的次数;
Z
t
,
n
Z_{t,n}
Zt,n是一个隐变量,表示第
t
t
t篇文章里第
n
n
n个词从属于哪个话题; 一个方框代表一篇文章,总共
N
N
N篇文章。指向方框的信息
Θ
t
\Theta_t
Θt表示了这篇文章中话题的比例,也就决定了当前这个词在这篇文章里从属于哪个话题,
T
T
T是文章数;而信息
β
k
\beta_k
βk表示这篇文章涵盖了哪些话题,
K
K
K是总共的话题数;
α
\alpha
α是
Θ
t
\Theta_t
Θt本身从属的分布的参数,
η
\eta
η是
β
k
\beta_k
βk本身从属的分布的参数。
根据图可以写出LDA的概率分布(每一个方框对应一个
∏
\prod
∏):