基于WordNet本体的简易邮件检索系统
在信息检索(IR)领域,基于WordNet的查询扩展和广义布尔查询公式是提升检索准确性的重要手段。此前已有诸多尝试利用从不同词法源提取的语义信息来优化用户查询,以解决术语不匹配问题,但如何确定添加到原始查询中的语义相关术语仍是一项挑战。
1. 查询处理
查询处理技术主要基于查询词加权和查询重新表述,同时也探讨了一种处理语义否定查询的初步方法。
- WordNet介绍 :WordNet是由普林斯顿大学的George Miller及其同事基于心理语言学原理手动构建的大型通用词汇词典。在自然语言处理(NLP)中,它被广泛用作独立于语料库的词汇本体。其词汇分为名词、动词、形容词和副词四个句法分类,这些词汇被分组为同义词集(synset)。Synset是WordNet的基本对象,代表潜在的词汇化概念,它们根据不同的词义生成,并通过同义词、反义词、上下位词、整体 - 部分关系、方式关系和蕴含关系等语义关系相互连接。本文仅考虑两种关系:
- 同义关系 :两个相关术语可互换。
- ISA关系 :也称为上下位关系,下位词至少有一个特征使其与上位词及其他下位词区分开来。
若WordNet中两个术语之间存在短的直接或间接链接,则称它们语义相似。语义距离是从一个术语到另一个术语的最小边数,语义不相似的两个术语之间的距离视为无穷大。
- 查询规范 :使用扩展巴科斯 - 诺尔范式(EBNF)表示法来指定三种布尔查询,即析取查询、合取查询和否定查询。其巴科斯 - 诺尔范式(BNF)定义如下
基于WordNet的邮件检索系统
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



