信息提取:原理、方法与应用
1. 引言
信息提取(IE)旨在自动识别自由文本中特定类型的实体、关系或事件。其涵盖范围广泛,从找出文本中的所有公司名称,到查明所有谋杀事件的相关信息,如凶手、受害者、时间和地点等。IE 的目标是将这些信息转化为便于计算机进一步处理的形式,如搜索或数据挖掘。
与语义分析不同,IE 着重分析文本信息内容的特定方面,主要聚焦于识别单个实体以及关于这些实体的谓词,而语义分析则更关注量化。对于这些谓词,IE 致力于为表达相同含义的不同语言谓词创建统一表示,例如“人 X 加入公司 Y”和“公司 Y 雇佣人 X”应具有相同的表示。
IE 涉及多个处理层次,首先识别实体,然后分析关于实体的谓词。下面将从文本中名称的识别和分类问题开始介绍。
2. 名称识别与分类
在传统的语言结构处理中,专有名称、地址、数量短语等往往未得到足够重视。语言分析通常从查字典并将单词识别为名词、动词、形容词等开始。然而,大多数文本包含大量名称,如果系统无法将这些名称识别为语言单位(并且在大多数任务中,识别其类型),则难以对文本进行有效的语言分析。
不同类型的文本中,占主导地位的名称类型也不同。化学文章包含化学物质名称,生物学文章包含物种、蛋白质和基因名称,而一般报纸文章则包含人物、组织和地点等名称。这里以查找人物、组织和地点名称为例,因为许多研究团队已对其进行了广泛研究。名称分类的结果通常以 XML 标记的形式呈现,例如:
Capt. <NAME TYPE=PERSON>Andrew Ahab</NAME> was appointed vice president of
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



