文本摘要创建的方法与技术
1. 信息提取系统概述
信息提取系统在文本摘要处理中发挥着重要作用。许多信息提取系统能够生成文本的摘要,如 TESS、SCISOR、CONSTRUE 和 FASTUS 等。这些系统会在半年一次的消息理解会议(MUCs)和 ARPA 的 Tipster 文本程序中进行评估,并与人工基准进行比较。从召回率和精确率来看,MUC 和 Tipster 系统的平均召回率约为 40%,精确率约为 50%,不过系统之间的性能结果存在较大差异。在速度方面,机器性能远远超过人类。
2. 话语结构的重要性
2.1 话语结构的普遍意义
自然语言文本(口语或书面语)的交流受话语模式的支配,了解这些模式对于文本理解至关重要,即使这种理解只是部分的,在提取文本内容时也是如此。话语结构的知识通常较少依赖于特定领域,虽然某些与文本类型相关的上层结构可能仅在特定文本类型中使用,但许多其他交流结构被广泛应用。
2.2 不同话语结构在文本摘要中的应用
- 文本的示意结构和信号线索 :文本的示意结构或上层结构及其语言信号线索在文本摘要中一直被认为很重要。例如,标题和副标题通常概括了文本的内容。更复杂的示意结构可用于总结新闻故事。文本类型相关的上层结构和独立于文本类型的修辞结构通常由文本中的典型自然语言表达暗示。
- 修辞线索 :早期的摘要系统使用提示词和指示短语来指示文本中的重要句子或排除在摘要过程中无价值的句子。如今,修辞线索在当前的摘要系统中仍然受到高度重视。修辞关系,特别是由词汇和其他表面线索标记的,被视为组织文本
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



