自动文档文本索引与摘要技术综述与应用
1. 自动索引与摘要概述
自动索引与摘要旨在自动创建文档内容的表示形式,这种表示形式以索引描述或摘要的形式呈现,用于辅助大型文档集合的检索、浏览和问答系统中的信息或文档选择。自然语言文本是信息交流和存储的重要手段,如今存在大量的文本数据库。由于手动索引和摘要已不可行,因此对自动索引和摘要系统的需求十分迫切。
目前的索引和摘要系统存在不足,常生成对文本内容不正确和不完整的表示,这导致了当前检索系统的诸多缺陷,也是信息检索问题的原因之一。当前的文本表示通常局限于文本中频繁出现的某些术语、文本开头的所有单词或包含频繁术语的句子。我们认为,以语义丰富的方式反映内容的表示将有助于解决未来系统中的信息检索问题。
近年来提出了一些替代解决方案,包括全文搜索、相关性反馈、信息代理和手动分配内容属性。这些解决方案都受益于对文本内容更精细的自动表征。然而,目前对大型异构文本集合进行复杂而完整的自然语言处理既不可行,在效率方面也并非总是理想的。真正的挑战是找到更好的文本分析方法,以最少地依赖外部知识来识别文本的主要主题及其子主题。
2. 文本的基本属性与结构
研究的基本对象是文本及其内容。文本有多种形式,即文本类型或体裁。话语分析学科描述文本并解释其属性。文本的基本单位是单词,更详细的分析层次包括字母(书面文本的基本符号)和音素(口语的基本声音单位)。字母和音素单独无意义,组合成词素后形成单词的组成部分。字母和一些标记构成电子文本的字符集。
单词组合成更大的有意义的语言单位,如短语、从句和句子。在微观层面,话语分析涉及单个句子、从句和短语的词汇、句法和语义;在宏观层面,它超越句子边界,将文本视为一个完
超级会员免费看
订阅专栏 解锁全文
500

被折叠的 条评论
为什么被折叠?



