元数据提取技术全解析
1. 语法结构提取技术
在元数据提取中,语法结构的提取是关键环节,下面介绍几种重要的技术。
1.1 隐马尔可夫模型(HMMs)
之前讨论的方法能确定单个单词或字符串在文档中的可能归属。例如,贝叶斯分类器会赋予概率,而模式匹配器则给出二元结果。不过,很多情况下分类的意义取决于上下文。比如,引用末尾的数字可能是出版年份,科学文章开头的名字可能是作者名。
隐马尔可夫模型(HMM)就是一种考虑上下文的常用技术。它被描述为从顺序数据中表示和提取信息最广泛使用的生成学习方法。HMM的基本思想是将观察的问题建模为一系列状态。观察到一个事件时,状态可能改变,一系列事件会使我们历经一系列状态。
HMM适用于描述那些虽不能直接观察底层结构,但随时间会产生可见模式的系统。例如,我们可以通过可观察的天气状况序列来推测上层大气的变化状态,或者通过检查沉积物等可见特征来建模洋流。
对于文本流,可类比为覆盖在隐藏的文档模型之上的一组可观察特征。去除文档的所有格式后,会得到一个可能有换行符分隔的长文本流,如下:
“Confirmation - Guided Discovery of First - Order Rules PETER A. FLACH,
NICOLAS LACHICHE flach@cs.bris.ac.uk lachiche@cs.bris.ac.uk Depart -
ment of Computer Science, University of Bristol, United Kingdom Abstract.
This paper deals with learning first - order logic rules from data lacking an…”
其背后隐藏着一个结构,即一系列状态或类型,从标题开始,接着是两个作者名、两个电子邮件地址、部门归属,然后是摘要。
下面用mermaid流程图展示HMM处理文本的大致流程:
graph LR
A[输入文本流] --> B[观察事件]
B --> C{状态是否改变}
C -- 是 --> D[更新状态]
C -- 否 --> B
D --> E[历经一系列状态]
E --> F[提取隐藏结构信息]
1.2 基于HMM的概率解析
贝叶斯分类器的输出能让我们大致了解给定字符串是标题的一部分还是作者列表的一部分,但有些术语具有歧义,可能出现在两种上下文中。例如,“Markov”可能是预印本标题中的词汇,也可能是作者名。
解决办法是创建一个状态机(马尔可夫链),我们作为背景知识指定可能的标记(单词)序列。例如,科学论文的可能序列是多个标题标记,接着换行,然后是多个作者标记,再换行,最后是多个归属标记。
根据贝叶斯分类器给出的概率,我们检查状态机的所有可能评估(类似于Earley解析),并记录每个可能评估的可能性。
一个简单的状态机规则可以是:预印本由一个或多个标题标记后跟一个或多个作者标记组成,即:
PrePrint ::= Title+ Author+
将上述语法应用到前面的示例文本行,会得到11种可能的解析结果。每种解析的可能性通过将每个标记属于文档特定部分的概率相乘来计算。例如,第一种解析的可能性需要将“Confirmation”是标题的概率与其他所有术语是作者的概率相乘;最后一种解析则需要将“LACHICHE”是作者的概率与其他所有标题概率相乘。计算所有可能性后,发现第三种解析的可能性远高于其他解析,因此根据这个指标,它是“正确”的解析。
在相乘过程中,所有小于阈值的概率会被提升到阈值。贝叶斯分类器的零概率仅意味着该标记在那种情况下未在训练集中出现过,并不意味着它永远不会以那种形式出现。
不过,上述简单状态机可能会失败。例如,如果第一个作者名字首字母是“A”,或者作者名是科学文献中的常见词汇。因此,在完整的语法中,可能需要根据视觉标记(如换行符和大空格)对标记进行聚类,然后再应用语法规则。
下面是一个简单的表格展示不同解析的可能性计算示例:
| 解析序号 | 标题标记概率计算 | 作者标记概率计算 | 总可能性 |
| ---- | ---- | ---- | ---- |
| 1 | “Confirmation”是标题概率 | 其他术语是作者概率相乘 | 标题概率×作者概率 |
| 2 | … | … | … |
| 3 | “Confirmation … Rules”标题概率相乘 | “PETER … LACHICHE”作者概率相乘 | 标题概率×作者概率 |
2. 相关方法及额外证据整合
除了HMM和基于HMM的概率解析,还有一些相关方法,并且在元数据提取中整合额外证据也非常重要。
2.1 相关方法:MEMMs和CRFs
HMM基于模型特征相互依赖的假设,因此在利用半结构化真实系统的规律方面存在困难。为此,提出了基于最大熵的马尔可夫模型(MEMMs)和条件随机场(CRFs)来处理独立特征。
MEMMs与经典HMM密切相关。“最大熵”意味着模型设计尽可能通用,即对给定信息的偏差最小,对缺失信息最不做预设。
MEMMs与HMM的不同之处在于,MEMMs不仅通过检查输出标记本身(如单词、单词的贝叶斯分类等)进行训练,还利用从它们派生的特征集。HMM只关注单词本身,而MEMMs会考虑单词的多种特征,如是否大写、是否以句号结尾、是否包含“@”符号、是否为名词等。对于某些问题类别,特别是训练数据集稀疏的情况,使用MEMM有望提高整体性能。
CRFs有时被描述为HMM的推广,它灵活且强大,但概念相对复杂。
下面用列表总结MEMMs和CRFs与HMM的区别:
-
HMM
:仅关注单词本身,基于特征相互依赖假设,处理半结构化系统规律有困难。
-
MEMMs
:利用派生特征集,考虑多种特征,适用于稀疏数据集。
-
CRFs
:HMM的推广,灵活强大但概念复杂。
2.2 整合额外证据
已收集和解析的每条信息都可能成为有用的额外数据源。例如,提取的参考文献不仅能用于了解文档之间的链接方式,还能提供已解析文档的相关信息。很多情况下,参考文献中的信息在文档本身中并不存在,如文档的出版日期、出版商名称、会议或期刊名称、出版商或会议地点以及文档出现的页码等。
可以将元数据提取数据库用作不断增长的知识库,当有关于同一文档的更多证据时,它能够审查和纠正提取的元数据。因此,元数据提取应被视为一个持续的迭代信息发现、收集和推理过程,而不是简单的信息输入、过滤和输出元数据记录的过程。
下面用mermaid流程图展示整合额外证据的过程:
graph LR
A[已收集解析信息] --> B[提取参考文献等额外证据]
B --> C[更新元数据提取数据库]
C --> D[审查和纠正提取的元数据]
3. 错误传播问题
一旦元数据出现错误,会以多种方式传播,主要体现在以下几个方面:
-
影响后续分类
:系统通常会利用之前的分类结果来对未来的论文进行分类。例如在某些系统中,会依据之前预印本的作者姓名、标题、摘要和分类来预测新预印本的分类。一旦某个预印本被错误分类,后续的论文可能会以类似的方式被误分类。
-
干扰文档关联
:系统一般会使用预印本中的元数据来建立预印本之间的联系,这些联系可以基于相同作者、相互引用或相似的关键词主题。然而,缺失的链接或多余的链接会使对相关论文集群的推理过程变得越来越困难。
-
稀释搜索结果
:当引入错误时,搜索查询的答案会被稀释。级联错误会导致搜索结果不成比例地被稀释,这在用户贡献系统中也同样存在,用户可能会通过查看可用示例来推断分类术语的使用。
在机器生成的分类中,通常以单一事实的形式呈现,如文档要么可以用某个关键词描述,要么不能。例如,一个文档可能被认为几乎肯定与“计算机体系结构”或“并行处理”相关,而被归类为“机器学习”或其他术语的可能性逐渐降低。一般在呈现结果时会设置一个阈值或默认接受最高分类,但这种分布描述了论文相对于其他论文的情况。当有许多关键词具有相似概率时,可能没有明显的赢家,此时如果没有人工评估,我们对结果清晰度的信心就会受到动摇。
对于解析结果,虽然某个解析的可能性远高于其他解析,但我们不能完全确定其正确性,不过可以计算其准确性的概率(置信度,值在0到1之间)。如果我们或系统对数据的置信度较低,进行推理时就会有传播错误的风险。如果我们采用贝叶斯观点,可以通过贝叶斯推理基于现有概率计算进一步的结论。但如果将概率视为事实,在不考虑置信度的情况下对不准确的数据进行推理,可能会产生我们几乎没有信心的假设。
因此,将都柏林核心(DC)元数据扩展以包含置信度估计是很有用的。例如在分类中,可以估计被认为“合理”的分类数量、可能分类的广度或范围,这类似于在协作标记系统中,生成或贡献的分类可以被视为“投票”。如果知道错误的性质和程度,使用这些值的进一步函数可以应用该信息来估计结果或派生函数的准确性。对于某些类型的元数据,如作者姓名消歧问题,近年来已经得到了广泛的研究。
下面用表格总结错误传播的影响及应对措施:
| 错误传播方面 | 影响 | 应对措施 |
| ---- | ---- | ---- |
| 影响后续分类 | 导致未来论文误分类 | 采用贝叶斯推理,考虑置信度 |
| 干扰文档关联 | 使论文集群推理困难 | 建立准确的元数据提取数据库 |
| 稀释搜索结果 | 降低搜索结果质量 | 扩展元数据包含置信度估计 |
4. 元数据提取系统的评估
设计和实现元数据提取系统后,通常需要对其进行评估,以确保其符合预期目的。评估可以采用多种不同的形式,具体取决于设定的目标。
评估主要关注以下几个方面:
-
元数据的正确性
:检查提取的元数据是否正确,即与“标准”答案(如地面真值或专家评估)相比,实际正确的元数据有多少。虽然定义数据正确比较简单,即元数据字符串逐字符相同,但计算错误却比较困难。例如,元数据前后可能有额外空格、作者姓名缩写后可能有句号,这些可能都是可以接受的;标题中缺失两个字符,既可以算作一个错误(“标题错误”),也可以算作两个错误(“两个字符缺失”),甚至20个错误(“后续所有字符错误”)。
-
元数据的完整性
:衡量是否提取了所有期望的元数据,可能会以部分元数据错误或“过度完整”为代价。例如,提取的元数据可能同时包含作者和编辑姓名作为作者,或者将标题和部分摘要作为标题。
评估方法有多种:
-
与手动提取比较
:将系统提取的结果与典型的手动元数据提取过程进行比较。
-
用户研究
:让用户对提取的元数据进行评估。
-
与地面真值比较
:地面真值是指有一个无可争议的正确答案的样本数据,通常由人工创建和修正。它可用于系统设计,训练系统组件,如分类器;也可用于衡量系统性能,通过将元数据提取过程的结果与地面真值进行比较,并根据适当的评分系统计算错误数量。不过,创建地面真值是一项手动且艰巨的工作,通常需要做出妥协,如收集小的地面真值或“近似”真值,但使用不准确的地面真值进行训练可能会降低系统性能,在评估中也会使结果看起来比实际更差。
当提取的元数据存在主观性时,很难事先创建地面真值。例如,文档的主题、古老文档的作者或写作时间等。此时可以请领域内的专家提供输入并汇总投票(可能根据专业知识加权),但这也不能保证地面真值的完整性。另一种比较方法是将元数据提取过程的输出交给一组专家,让他们评估数据的正确性,但这种方法需要专家花费时间评估大量输出。
为了平衡元数据的完整性和正确性,通常需要允许一些错误,并接受部分元数据缺失。一种表示方法是绘制接收者操作曲线(ROC),即在多个参数设置下,绘制完整性与正确性的关系图,选择在可接受的错误水平下具有满意完整性的参数设置。正确性和完整性与信息检索中的精度和召回率非常接近,但并不完全相同。在信息检索中,查询答案是从所有可能答案中选择的,精度可以定义为有用答案的数量除以答案总数,召回率可以定义为有用答案的数量除以所有正确答案(由地面真值规定)。
下面用mermaid流程图展示元数据提取系统评估的大致流程:
graph LR
A[设计实现元数据提取系统] --> B[选择评估方法]
B --> C{是否有地面真值}
C -- 是 --> D[与地面真值比较]
C -- 否 --> E[专家评估或用户研究]
D --> F[计算正确性和完整性]
E --> F
F --> G[绘制ROC曲线选择参数]
综上所述,元数据提取是一个复杂的过程,涉及多种技术和方法,同时需要关注错误传播问题,并通过合理的评估来确保系统的性能和质量。
超级会员免费看
1337

被折叠的 条评论
为什么被折叠?



