信息抽取(IE)领域相关论文阅读小结-优快云博客

本文介绍了信息抽取领域的关键研究工作，包括利用生成式模型、条件随机场等技术进行无模板抽取，以及通过半监督学习和多视图学习提高抽取准确率的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

详细内容详见诸论文，阅读中有问题欢迎一起探讨

Graph Model

David M. Blei , J. Andrew Bagnell , Andrew McCallum : Learning with Scope, with Application to Information Extraction and Classification.

介绍了一个利用生成式模型用于无模板抽取，该论文解决的主要问题是全局特征和局部特征的结合（该文是很多后续类似的工作的起源）。

Jun Zhu , Zaiqing Nie , Ji-Rong Wen , Bo Zhang , Wei-Ying Ma : 2D Conditional Random Fields for Web information extraction

假设前提是网页中描述产品的页面，可以划分成多个 object element ，而这种 element 之间的关系在不同的网站中有一定相似性，所以可以通过 CRF model 这种 object element 之间的 dependency ，从而获得效果的提升。该文并给出了一种将 2D CRF 转化为 linear chain 的 parameter estimation 的方法 （后续又提出了 HCRF （树结构的 CRF ）用于 model 树本身结构的特征）

Bootstrapping and Multiview Learning

Andrew Carlson ,Charles Schafer : Bootstrapping Information Extraction from Semi-structured Web Pages

介绍了一个利用 boostrapping 结合多个分类器 抽取 detail page 中指定域的方法

Ion Muslea , Steven Minton , Craig A. Knoblock : Active + Semi-supervised Learning = Robust Multi-View Learning.

以用于网页抽取的 wrapper 生成为背景，将其提出了一种 active learning method Co-testing 结合多视角半监督方法 Co-EM ，并指出这种方法更 robust 相对于多视角学习中的数据的两个限制 (1)independent （ 2 ） sufficient good enough

Yan Zhou , Sally A. Goldman : Democratic Co-Learning

本文还是有关 multi-view learning. 针对 multi-view learning 的关于 data 的两个限制，该文提出了不同的 learning algorithm 实际上也是基于不同假设，所以即使利用相同的数据，但是利用两种不同的算法，效果也可能存在改善，作者在该文把中宗方法称为 Co-Learning

Semi-supervised learning

Andrew McCallum, Gideon Mann, Gregory Druck ： Generalized Expectation Criteria

本文提出了一种 generalize expectation criteria 用于将 additional knowledge 加入到 object function 中从而使的 parameter estimation 可以包含专家经验，或者 unlabeled data 中的一些知识。随后发表了一些列的使用 GE criteria 的 semi-supervised application 论文。

Andrew McCallum , Kedar Bellare , Fernando C. N. Pereira : A Conditional Random Field for Discriminatively-trained Finite-state String Edit Distance

该文介绍了一种利用 CRF 做字符串匹配的方法，并提出了一中 包含 latent variable 的 CRF 的 parameters 训练方法，实际上就是 EM 方法。该 CRF-based alignment 方法随后被用于补全数据库中 record 内缺失的内容。