概率图模型
概率图模型(probabilistic graphical models)在概率模型的基础上,使用了基于图的方法来表示概率分布(或者概率密度、密度函数),是一种通用化的不确定性知识表示和处理方法。在概率图模型的表达中,结点表示变量,结点之间直接相连的边表示相应变量之间的概率关系。当概率分布P被表示成概率图模型之后,可以用来回答与概率分布P有关的问题,如计算条件概率P(Y|E=e):在证据e给定的条件下,Y出现的边缘概率;推断使P(X1,X2,L,Xn|e)最大的(X1,X2,L,Xn)的分布,即推断最大后验概率时的分布argmaxXP(X|e)。例如,假设S为一个汉语句子,X是句子S切分出来的词序列,那么,汉语句子的分词过程可以看成是推断使P(X|S)最大的词序列X的分布。而在词性标注中,可以看作在给定序列X的情况下,寻找一组最可能的词性标签分布T,使得后验概率P(T|X)最大。
根据图模型(graphical models)的边是否有向,概率图模型通常被划分成有向概率图模型和无向概率图模型。我们可以粗略地将图模型表示成图6-1所示的树形结构。
动态贝叶斯网络(dynamic Bayesian networks, DBN)用于处理随时间变化的动态系统中的推断和预测问题。其中,隐马尔可夫模型(hidden Markov model, HMM)在语音识别、汉语自动分词与词性标注和统计机器翻译等若干语音语言处理任务中得到了广泛应用;卡尔曼滤波器则在信号处理领域有广泛的用途。马尔可夫网络(Markov network)又称马尔可夫随机场(Markov random field, MRF)。马尔可夫网络下的条件随机场(conditional random field, CRF)广泛应用于自然语言处理中的序列标注、特征选择、机器翻译等任务,波尔兹曼机(Boltzmann machine)近年来被用于依存句法分析和语义角色标注等。