综述
在用户使用搜索引擎的过程中,由于地区差异、文化水平等差异,用户所输入的query很多时候和资料中的描述不一致。这种情况下,为了能够召回更多的文档向用户展示,搜索引擎需要对用户的输入做同义词、纠错、归一化等操作。在进行这些操作的过程中,同义词的挖掘是一个基础工作。下面简单介绍一下几个简单实用的算法。
词典
从百度词典、金山词霸的词条中抓取数据,根据原词的描述和解释提取同义词。这种算法简单有效,但是挖掘出来的同义词通常比较书面语。
百科词条
从百度百科、搜搜百科等百科网站抓取词条,在词条中,有“又叫”“别名”等特征词,从这些特征词之后可以提取该词条的其他说法。百科挖掘出的词条通常质量比较高。
元搜索数据
元搜索数据中,原始Query和其召回的文档存在一定的关系,有些是元搜索引擎做了同义替换或者非必留召回的结果。在这些结果和原始query做