前言
Dirichlet分布(Dirichelt Distribution)和Dirichlet过程 (Dirichlet Process)广泛应用于信息检索、自然语言处理等领域,是理解主题模型的重要一步。而且它作为一种非参数模型(non-paramatric model),和参数模型一样有着越来越广泛的应用。
文本提供了一种对Dirichlet 过程的理解。本文适合了解高斯过程,对Dirichlet过程有一定了解,但又有些困惑的同学。希望读完这篇文章能进一步提升对Dirichlet的理解。
随机过程
粗略地说,随机过程是概率分布的扩展。我们一般讲概率分布,是有限维的随机变量的概率分布,而随机过程所研究的对象是无限维的。因此,也把随机过程所研究的对象称作随机函数。
随机变量之于概率分布,就像随机函数之于随机过程。
机器学习领域常见的随机过程有:Gaussian Process, Dirichlet Process, Beta Process, Gamma Process等等。
高斯过程
理解Dirichlet过程,可以类比高斯过程。高斯过程(GP)是定义在函数上的概率分布。