林华达视角-概率图模型与计算机视觉

最新推荐文章于 2024-04-23 23:01:33 发布

原创

最新推荐文章于 2024-04-23 23:01:33 发布 · 1.1w 阅读

3 ·

CC 4.0 BY-SA版权

1. 概率模型与计算机视觉

上世纪60年代, Marvin Minsky 在MIT让他的本科学生 Gerald Jay Sussman用一个暑假的时间完成一个有趣的Project: “link a camera to a computer and get the computer to describe what it saw”。从那时开始，特别是David Marr教授于1977年正式提出视觉计算理论，计算机视觉已经走过了四十多年的历史。今天看来，这个已入不惑之年的学科，依然显得如此年轻而朝气蓬勃。

在它几十年的发展历程中，多种流派的方法都曾各领风骚于一时。最近二十年中，计算机视觉发展最鲜明的特征就是机器学习与概率模型的广泛应用。在这里，我简单回顾一下对这个领域产生重要影响的几个里程碑：

1984年：Stuart Geman和Donald Geman发表了一篇先驱性的论文：Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images. 在这篇文章里，两位Geman先生引入了一系列对计算机视觉以后的发展具有深远影响的概念和方法：Markov Random Field (MRF), Gibbs Sampling，以及Maximum a Posteriori estimate (MAP estimate)。这篇论文的意义是超前于时代的，它所建立的这一系列方法直到90年代中后期才开始被广泛关注。
1991年：Matthew Turk和Alex Pentland使用Eigenface进行人脸分类。从此，以矩阵的代数分解为基础的方法在视觉分析中被大量运用。其中有代表性的方法包括PCA, LDA，以及ICA。
1995年：Corinna Cortes和Vladimir Vapnik提出带有soft margin的Support Vector Machine (SVM)以及它的Kernel版本，并用它对手写数字进行分类。从此，SVM大受欢迎，并成为各种应用中的基准分类器
1996年：Bruno Olshausen 和David Field 提出使用Overcomplete basis对图像进行稀疏编码(Sparse coding)。这个方向在初期的反响并不热烈。直到近些年，Compressed Sensing在信号处理领域成为炙手可热的方向。Sparse coding 在这一热潮的带动下，成为视觉领域一个活跃的研究方向。
90年代末：Graphical Model和Variational Inference逐步发展成熟。1998年，MIT出版社出版了由Michale Jordan主编的文集：Learning in Graphical Models。这部书总结了那一时期关于Graphical Model的建模，分析和推断的主要成果——这些成果为Graphical Model在人工智能的各个领域的应用提供了方法论基础。进入21世纪，Graphical Model和Bayesian方法在视觉研究中的运用出现了井喷式的增长。
2001年：John Lafferty和Andrew McCallum等提出Conditio