自然语言信息提取的统计关系学习
1. 引言
理解自然语言存在诸多具有挑战性的问题,而统计关系学习(SRL)为解决这些问题提供了有效的途径。传统的信息提取(IE)系统通常将不同的潜在提取视为相互独立的,但在某些情况下,对不同潜在提取之间的影响进行建模可以提高整体的提取准确性。
自然语言处理(NLP)既需要处理实体间复杂的关系,这是谓词逻辑的优势;又需要整合来自多种来源的不确定证据,以解决句法和语义上的歧义,这正是贝叶斯概率方法和图形模型的长处。因此,结合了一阶谓词逻辑和概率图形模型优势的SRL方法,特别适合解决NLP问题。
本文将介绍如何使用关系马尔可夫网络(RMNs)进行信息提取,即识别自然语言文本中特定类型实体的短语。我们将通过在生物医学文本中提取蛋白质名称的实验,展示这种方法相对于现有信息提取方法的优势。
2. 自然语言处理背景
早期的NLP研究侧重于符号技术,依赖手动编写的生产规则、语义网络或谓词逻辑中的公理来理解和生成语言。20世纪70年代,NLP研究特别关注语言的语义分析,涵盖了从微世界中的命令响应和问题解答,到数据库查询回答和短故事理解等多个任务。然而,这些早期系统需要大量特定应用的知识工程,缺乏灵活性和扩展性。
随着时间的推移,研究人员对符号化、手动开发的NLP系统的知识工程需求和脆弱性感到失望。与此同时,语音识别领域使用基于大型标注语料库训练的统计方法取得了显著成果。这一发展促使统计方法在NLP的其他方面得到应用,如词性(POS)标注。
20世纪90年代初,计算语言学研究发生了重大范式转变。基于经验数据自动获取语言处理知识的统计学习方法,逐渐取代了基于人类知识工程的系统。为了避免复
超级会员免费看
订阅专栏 解锁全文
9685

被折叠的 条评论
为什么被折叠?



