近来研究基于知识图谱的信息检索的课题,在知识图谱领域的搜索中,很重要的一个方面便是实体搜索。FSDM算法(Fielded Sequential Dependence Model)是一种概率语言模型,能够达到较好的查询性能。由于FSDM算法的论文为英文,对于初学者来说阅读起来比较困难,经过几天的艰难整理,在这里与大家分享FSDM算法的主要内容,存在错误之处还望大家多多指正。
1.实体搜索中一些基本概念
在介绍算法之前,先介绍几个实体搜索中的概念:
实体(entity):现实或虚拟环境中具有特定语义的任何对象或者概念都可以看作是实体,用符号e表示实体,例如:“巴拉克·奥巴马”“北京”“阿甘正传”等;
实体类别(entity class):每个实体都有对应的类别信息,比如实体“北京”是“地方”“城市”。类别体系构成一个层次结构,比如:“机构”是一种类别,机构又包括“公司”“学校”“党派”等不同类别;
实体关系(entity relation):表示实体之间的关系,比如“巴拉克·奥巴马”和“米歇尔·奥巴马”两个实体之间的关系为“夫妻”;
实体搜索(entity search):是指根据实体与给定查询的相关性或相似性对实体进行排序,可以形式化定义为四元组{D,q,F,R(q,ej)},其中
(1) D是数据集。数据集可以是非结构化文档的集合,文档中包含了大量的实体;数据集也可以是结构化的知识库(又称为知识图谱),知识库由大量的实体以及实体之间的关系组成;
(2) q是用户查询;
(3) F定义为构建数据集表示、查询表示以及它们之间关系的模型框架。例如:对于概率语言模型,该框架是由概率运算和贝叶斯理论组成。本文所讲述的FSDM算法便是一种模型框架;
(4) R(q,ej)是评分函数,输出一个与查询q和实体ej有关的实数,用于度量查询q和实体ej的相关性或相似性,据此可以对e