Web信息抽取与强化学习-优快云博客

本文探讨了华盛顿大学TuringCenter在Web信息抽取领域的研究，特别是其无监督和半监督抽取方法，以及如何通过搜索引擎验证抽取结果。同时，文中还介绍了黄松芳师兄关于将层级贝叶斯模型应用于语音识别的研究。

2009-2-17, 8:51

Turing Center的一些文章

发现Washington 大学的Turing Center（http://turing.cs.washington.edu/index.htm）的一些工作比较有意思。这个group主要的工作是Web的Information Extraction。不过和一般做IE的不同，他们更关注网络，他们不仅把网络看出一个数据源，而且使用搜索引擎来验证抽取的数据，以实现无监督或者半监督的抽取。另外他们最近的工作关于wiki上的抽取也值得关注。

抽取的一个“鸡生蛋，蛋生鸡”的问题是：如果有很多的标注语料，就能学习出好的统计模型，然后就能抽取很多的数据。因此“模型”说，给我更多的标注语料吧，这样我就能抽取出很多数据。Web说，我这里有很多数据，你不是能抽取吧，你自己来取吧。“模型”说，我现在没有数据，抽取不了。Web说，那我可不管了，我又不是Semantic Web，我只有一堆无结构的数据。“模型”说，@@，我要雇用人标注数据，老板，多给我点科研经费。

我们来回顾一下人的学习过程。人当然一上来是有监督的学习，然后学到一个初始的模型后不断的实践，通过成功的母亲不断优化模型。如果把人类看成一个整体的话，那么人类的学习不是有监督的，而是Reinforcement Learning（强化学习）。也就是说学习的关键不仅仅是怎么训练一个最优的模型，还有一个关键就是根据“反馈”知道样本是什么样子的。人类整体是通过“反馈”来知道的，而具体到一个个体呢？一个个人的学习很简单，就是统计。人学到的原来的知识就是“先验”知识，然后根据后来出现的样本算出后验概率。比如判定一个事件是真是假，最简单的就是频数统计，如果有先验的话可以把先验当成以前这个事件成功和失败的次数。这其实就是给变量加上一个Dirichlet 先验。

他们的主要工作集中在几个phD的论文里，看了一下Popescu的论文的前两章。他们首先用一个Bootstrapping模块生成规则，然后利用这些规则使用Extractor模块通过search engineer搜索到一些结果，然后使用Assessor验证结果，把通过验证的结果加入知识库中。

比如他们要抽取城市，那么可能有这样的规则——cities such as …. ，such as后面的应该就是城市名。当然还要有一些约束，比如such as 后面的应该是NP的中心词。比如big cities such as beautiful beijing，那么城市应该是beijing而不是beautiful beijing。然后还要验证，验证规则比如 beijing is a city， beijing as a big city… ，把这样的短语拿到google上去搜，根据返回的结果数量以及相关性来判定beijing是不是一个city。具体的用到的统计方法好像是PMI，没具体看，好像是互信息之类的。

2009-2-17, 18:34

黄松芳师兄做的报告

今天师兄又来做报告了，还是他在爱丁堡做phd的工作。就是把Hierachical Beyesian model用到Language Mode中以提高ASR的性能。具体的任务是AMI的Conversational Speech Recognition。他的想法是这个任务的说话人是分成4个角色的，好像是Manager，UI Designer等等。然后使用类似于Author-Topic model的思想，然后把topic model融入到Language Model中，借鉴了Piman-Yor Language Model。当然还包括用Topic Models建模Prosody，韵律不太懂也不太感兴趣。另外就是介绍Topic Models和NPBayes的一些基础还有一些实验结果。

以前也花了不少时间看Topic Models的文章，包括后来的Non-Parametric Bayesian的东西，但是没找到合适的应用点。包括以前费大力气看了很多SVM，如推广到结构话的Structure Output Space，CRFs，Searn等等。但总没有做出什么东西来，唉，看来我是不适合做这个，马上就要毕业了，还是做的实际的系统吧。