<!-- [if gte mso 9]><xml> <w:WordDocument> <w:View>Normal</w:View> <w:Zoom>0</w:Zoom> <w:PunctuationKerning/> <w:DrawingGridVerticalSpacing>7.8 磅</w:DrawingGridVerticalSpacing> <w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDrawingGridEvery> <w:DisplayVerticalDrawingGridEvery>2</w:DisplayVerticalDrawingGridEvery> <w:ValidateAgainstSchemas/> <w:SaveIfXMLInvalid>false</w:SaveIfXMLInvalid> <w:IgnoreMixedContent>false</w:IgnoreMixedContent> <w:AlwaysShowPlaceholderText>false</w:AlwaysShowPlaceholderText> <w:Compatibility> <w:SpaceForUL/> <w:BalanceSingleByteDoubleByteWidth/> <w:DoNotLeaveBackslashAlone/> <w:ULTrailSpace/> <w:DoNotExpandShiftReturn/> <w:AdjustLineHeightInTable/> <w:BreakWrappedTables/> <w:SnapToGridInCell/> <w:WrapTextWithPunct/> <w:UseAsianBreakRules/> <w:DontGrowAutofit/> <w:UseFELayout/> </w:Compatibility> <w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel> </w:WordDocument> </xml><![endif]--><!-- [if gte mso 9]><xml> <w:LatentStyles DefLockedState="false" LatentStyleCount="156"> </w:LatentStyles> </xml><![endif]--> <!-- [if gte mso 10]> <mce:style><!-- /* Style Definitions */ table.MsoNormalTable {mso-style-name:普通表格; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin:0cm; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:10.0pt; font-family:"Times New Roman"; mso-fareast-font-family:"Times New Roman"; mso-ansi-language:#0400; mso-fareast-language:#0400; mso-bidi-language:#0400;} --> <!-- [endif]-->
详细内容详见诸论文,阅读中有问题欢迎一起探讨
Graph Model
David M. Blei , J. Andrew Bagnell , Andrew McCallum : Learning with Scope, with Application to Information Extraction and Classification.
介绍了一个利用生成式模型用于无模板抽取,该论文解决的主要问题是全局特征和局部特征的结合(该文是很多后续类似的工作的起源)。
Jun Zhu , Zaiqing Nie , Ji-Rong Wen , Bo Zhang , Wei-Ying Ma : 2D Conditional Random Fields for Web information extraction
假设前提是网页中描述产品的页面,可以划分成多个 object element ,而这种 element 之间的关系在不同的网站中有一定相似性,所以可以通过 CRF model 这种 object element 之间的 dependency ,从而获得效果的提升。该文并给出了一种将 2D CRF 转化为 linear chain 的 parameter estimation 的方法 (后续又提出了 HCRF (树结构的 CRF )用于 model 树本身结构的特征)
Bootstrapping and Multiview Learning
Andrew Carlson ,Charles Schafer : Bootstrapping Information Extraction from Semi-structured Web Pages
介绍了一个利用 boostrapping 结合多个分类器 抽取 detail page 中指定域的方法
Ion Muslea , Steven Minton , Craig A. Knoblock : Active + Semi-supervised Learning = Robust Multi-View Learning.
以用于网页抽取的 wrapper 生成为背景,将其提出了一种 active learning method Co-testing 结合多视角半监督方法 Co-EM ,并指出这种方法更 robust 相对于多视角学习中的数据的两个限制 (1)independent ( 2 ) sufficient good enough
Yan Zhou , Sally A. Goldman : Democratic Co-Learning
本文还是有关 multi-view learning. 针对 multi-view learning 的关于 data 的两个限制,该文提出了不同的 learning algorithm 实际上也是基于不同假设,所以即使利用相同的数据,但是利用两种不同的算法,效果也可能存在改善,作者在该文把中宗方法称为 Co-Learning
Semi-supervised learning
Andrew McCallum, Gideon Mann, Gregory Druck : Generalized Expectation Criteria
本文提出了一种 generalize expectation criteria 用于将 additional knowledge 加入到 object function 中从而使的 parameter estimation 可以包含专家经验,或者 unlabeled data 中的一些知识。随后发表了一些列的使用 GE criteria 的 semi-supervised application 论文。
Andrew McCallum , Kedar Bellare , Fernando C. N. Pereira : A Conditional Random Field for Discriminatively-trained Finite-state String Edit Distance
该文介绍了一种利用 CRF 做字符串匹配的方法,并提出了一中 包含 latent variable 的 CRF 的 parameters 训练方法,实际上就是 EM 方法。该 CRF-based alignment 方法随后被用于补全数据库中 record 内缺失的内容。