18、文本摘要创建的方法与技术

文本摘要创建的方法与技术

1. 信息提取系统概述

信息提取系统在文本摘要处理中发挥着重要作用。许多信息提取系统能够生成文本的摘要,如 TESS、SCISOR、CONSTRUE 和 FASTUS 等。这些系统会在半年一次的消息理解会议(MUCs)和 ARPA 的 Tipster 文本程序中进行评估,并与人工基准进行比较。从召回率和精确率来看,MUC 和 Tipster 系统的平均召回率约为 40%,精确率约为 50%,不过系统之间的性能结果存在较大差异。在速度方面,机器性能远远超过人类。

2. 话语结构的重要性

2.1 话语结构的普遍意义

自然语言文本(口语或书面语)的交流受话语模式的支配,了解这些模式对于文本理解至关重要,即使这种理解只是部分的,在提取文本内容时也是如此。话语结构的知识通常较少依赖于特定领域,虽然某些与文本类型相关的上层结构可能仅在特定文本类型中使用,但许多其他交流结构被广泛应用。

2.2 不同话语结构在文本摘要中的应用

  • 文本的示意结构和信号线索 :文本的示意结构或上层结构及其语言信号线索在文本摘要中一直被认为很重要。例如,标题和副标题通常概括了文本的内容。更复杂的示意结构可用于总结新闻故事。文本类型相关的上层结构和独立于文本类型的修辞结构通常由文本中的典型自然语言表达暗示。
  • 修辞线索 :早期的摘要系统使用提示词和指示短语来指示文本中的重要句子或排除在摘要过程中无价值的句子。如今,修辞线索在当前的摘要系统中仍然受到高度重视。修辞关系,特别是由词汇和其他表面线索标记的,被视为组织文本
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值