基于本体的信息检索模型

最新推荐文章于 2024-05-08 19:20:37 发布

wangjun_pfc

最新推荐文章于 2024-05-08 19:20:37 发布

阅读量2.2k

点赞数

文章标签：文档 processing 全文检索算法 algorithm 扩展

老师上周就给了我这篇文章，只可惜由于身体原因，头脑总是昏昏的，看不了多久人就糊了，以至于花了一个星期时间才将其看完。该文成为我们实验室的必读文献，可见其经典性。建议信息检索及相关领域的朋友们都去读一读这篇文章。本笔记将主要记录和阐述其中的一些观点。

Notes（1）:Introduction

传统的基于关键词(keyword-based)的信息检索由于其存在诸多的缺陷,使人们基于寻求新的信息检索模式和技术.语义网的出现给人们以新的思路,人们期望利用语义网的技术来克服基于关键词的信息检索技术的缺陷.学界已经在语义检索领域作出了一定的贡献,但这些贡献要么并没有充分发挥基于本体的知识表示的强大功能,要么仍然是基于布尔检索,所以在处理大量的信息资源时,其缺乏适当的排序模型.

到目前为止,基于语义的信息检索模型可以分为两类:基于知识库的和非基于知识库的.

非基于知识库的语义检索模型提供一个低层次的信息空间表示,本质上类似于传统的分类法和叙词表,而不是提供一个知识库.由于这种方式利用基于概念层次和关系规则的查询扩展方式或多面的检索和浏览，使得其性能超越了传统的基于关键词检索模型。但这种方法是否充分利用了本体语言的优势尚不明确。

基于知识库的语义检索模型采用超大的包含成千上万条本体实例、概念和任意复杂度关系的知识库实施检索。但已有的研究和应用都集中于使用布尔检索，将信息空间认为是无歧义、无冗余和格式化的本体知识，这便将信息检索问题降低到数据检索层面了。一个信息检索请求转化成一个是与否（即0与1）的关系，这样检准率经常会是100%，而不管其是否满足用户的需求。当待检索的信息资源库能被本体驱动的知识库充分表示时，这种检索模型通常能取得较好的效果。

这种基于知识库的布尔检索模型存在许多局限性。

一、互联网上已有的信息量是相当巨大的，并且多是已非结构化的文本或多媒体形式存在，要将这些信息以可以支付的代价转化为本体知识，这到目前为止还是一个尚未解决的问题。

二、文献（Documents）都有其自身的价值，是一个有机的体系，其文章所采用的词、词的顺序和组织方式都有特定的含义，将文献分解为信息元素的集合（无论元素之间是如何联系的）都必将导致文献的信息贬值。因此，尽管通常将文献分解为信息单元以便重用和组装，使之适应不同的目的需求，但通常还是需要保持信息系统中原有文献的完整性。

三、布尔语义检索无法提供清晰的排序标准，当检索空间很大时，这样的检索结果便显得毫无意义。

正因为已有的语义检索理论与技术的这些局限性，David Vallet等提出了基于本体的信息检索模型。通过开发全面的领域本体和知识库，使之支持文献库的语义检索。与布尔检索不同的是，该方法以全文文献库为研究对象，而不是来自知识库的特定实例，对于用户的信息需求，其返回给用户是全文文献。这个检索系统充分利用了知识库中处于实例层次的知识、概念的主题分类法等优势，提出了自适应的经典向量空间模型，并定义了排序算法。

该模型的性能直接取决于知识库中信息的数量和质量。然而，由于本体库的不完善和不完全，使得这种模型同样存在一定的局限性。为解决这个问题，当所需的本体信息不存在或不完全时，该模型仍然采用基于关键词的信息检索模型作为补充。

Notes（2）:Knowledge Base and Document Base

在该语义信息检索模型中,使用了知识库和文档库,知识库是基于本体的RDF KB,是用来描述文档的概念和实例。KB中的概念和实例，通过明确语义标注功能，建立与文档库的联系。因此，在本节中，作者介绍了模型中的知识库、文档库和带权重的语义标注等三个内容。

1 关于知识库（Knowledge Base）

作者使用的知识库是一个基于本体的概念和实例的集合。系统知识库的建设是建立在DomainConcept、Taxonomy、Document等三个顶级本体的基础上的。这三个顶级本体分别适应于不同的功能。

DomainConcept是用来创建描述文档中所涉及的所有领域本体的上位概念。如，对于一个描述“艺术”的文档集合，则我们可以根据需要创建艺术家、艺术作品等概念，而这些概念都必须是DomainConcept的子概念。简言之，文献集合内所描述的所有概念都是DomainConcept的子类。

Document包含TextDocument和MediaContent两个子类，根据实际需要还可以继续细化。Document必须含有一个location的属性，用来记录和区别文档的物理地址，其值通常是一个URL。可见其主要作用是提供一个用户检索结果的instance和文档之间的纽带。

Taxonomy作为一种层次分类模式，不能被实例化。其作用是用来描述文档的topic属性。如，如果某个关于news的知识库的Taxonomy包含culture,sports politics,economics这几个子类，则概念news的topic属性值可以为culture,sports politics,economics中的某一个。由于采用了这个本体，使得用户可以实行多面检索，从而消除歧义词的影响。

2 关于文档标注(Document Annotation)

在notes(1)已经说明，由于相关研究提供的检索结果都是instance，这往往不能满足用户的要求，还需要提供给用户提供相关文档。因此，在该语义检索系统中，除了上面所述的知识库外，还需要对文档进行语义标注。

通过概念Annotation可以实现以上功能。Annotation包含instance和document两个属性，这样便可以将知识库和文档联系起来。文档标注可以通过人工或机器来实现。

3 文档标注的权重

系统在检索和排序模块中都用到了文档标注。为了表示instance与文档之间的相关性，需要确定标注的权重。标注权重采用TF-IDF算法，其核心是基于instance在文档中出现的频率。其公式是：

Wij=(freqi,j / maxk freqk,j)*log(N / ni)

Wij 表示instance Ii对于文档Dj 的权重。freqi,j 表示instance Ii 对应的标签在文档Dj 中出现的频率，maxk freqk,j 文档Dj 中出现次数最多的实例的频率，N表示文档集合中所有的文档的数目，而ni 则表示出现实例instance Ii 的文档的数目。

但这个公式在求权重时仍然存在问题，因为instance的出现频率是以其标签来计算的，这就容易忽略近义词、同义词、同一个词的不同形式（名词、动词、动名词、过去分词等）等问题，这必将影响权重的值。

Notes（3）:Processing Queries---Architecture

本文的模型可以看作是经典基于关键词的检索模型的发展，即把原来基于关键词的索引替换为语义知识库。其结构图是：(图略)

用户输入检索词，系统将用户输入的检索词转换为RDQL query表达式，这种转换有许多方式可以实现。然后查询引擎便会利用RDF 知识库来执行这个RDQL query表达式，运行完毕，返回相应的实例instance。由于实例和文档是相关联的，所以接着就会返回实例相对应的无序文档。然后根据排序算法，最终返回给用户经过排序的文档，检索完毕。

Notes（4）: Processing Queries---Query Encoding、 Document Retrieval and -Ranking Algorithm

RDQL是一种本体查询语言,讷讷感处理本体实例、文档属性（如作者、时间等）和分类值（即某个查询属于那个类别，如对于一条关于文化的news，可以根据查询词自动获得其分类值为culture）。

在经典向量空间模型中，可以根据用户需求对检索词赋予一定的权重，从而显示用户对某个词更感兴趣。同样，在语义检索中，也应当能够根据用户兴趣而设置检索词的权重。在RDQL查询语言中，这种功能的实现是在Select语句中确定的。检索词权重的确定有2种方式，一是用户的个性化设置，二是系统根据一定规则自动生成。

为了在概念层次上扩展用户查询，系统使用了推理规则，如可以根据球员的得分而推导出胜利者。执行查询后，返回一列实例，如果返回的是领域概念的实例，系统根据返回的实例在文档库中继续执行检索，最终返回给用户界面的是文档列表。而如果返回的是文档概念的实例（因为查询可能包括与文档直接相关的内容），则同样执行上述过程，只不过在重新检索时，其对象是已检索出的文档集合，而不是原始的文档集合。

当文档从文档集中检索出来之后，需要对其进行排序，计算查询和每个文档之间的语义相似度。相似度的计算采用向量空间模型。该模型已是信息检索领域的经典模型，在此不累述。

当知识库很完善时，这种排序通常能实现很好的效果。但通常这种情况不容易做到，所以为改善检索结果，系统整合了传统的基于关键词的检索策略。

Notes（5）: Early Experiments、Discussion 、Conclusion and My Preview

前面几节已讲述了基于本体的信息检索模型的诸多理论与技术，在后面几节，David 等列出了其部分实验结果来验证和分析前面的理论假设。

通过分析（采用传统的相关度、查全率和查准率进行分析），发现对于用户的一个查询，如果这个查询的内容相对于现有的知识库而言，知识库比较完善的话，便能得到很好的检索结果。反之，相对于这个用户查询，而知识库中不存在或存在的相应知识不够的话，其语义检索性能便比不上基于关键词的全文检索性能。这时，考虑将传统的基于关键词的检索策略整合进来，从而克服了知识库不充分时的不足，在整体上提升了检索性能。当然，正如作者所述，系统还存在一些不足，需要进一步的研究和实践。

点评：

1．研究的出发点及主要贡献。

在基于关键词的检索存在的问题日益突出，同时基于本体的语义检索开始兴起时，作者将二者以比巧妙的方式结合起来，以达到满足用户需求的整体效果的提高。该文把握住了研究的良好切入点，使得研究很有意义，这种方法的确能提高检索效果，是对于语义网研究和应用的一个较大进步。

2．论文的其他价值

该文的一个很大的亮点是信息量大、分析深刻。在分析语义检索存在的问题及相关研究时，作者分析相当深刻和全面，对于进一步的学习和研究具有很大的指导和参考作用，如自动语义标注等。

3．发展前景

国内外对于语义检索的研究和应用正在开始兴起，对于语义检索，还有许多可以值得继续深入研究的地方。最为重要的是，当语义检索和其他学科与领域发生组合时，将会产生许多令人兴奋的项目诞生。该文研究思路和许多观点为其领域扩展打下了很好的基础。