利用维基百科组织搜索结果的Web 2.0方法
1. 引言
随着万维网的不断发展,人们能够从世界各地的不同来源获取海量的数据和信息。网络搜索引擎旨在帮助用户找到满足其信息需求的合适数据。目前,大多数搜索引擎在响应用户查询时,会返回一个结果列表。这种简单的方法在很多情况下是足够的,但在其他情况下可能效率低下,用户可能需要浏览一长串结果才能找到相关文档。当用户选择的查询关键词有其他更流行的含义时,这个问题尤其令人困扰。例如,用户使用查询词“Java”来获取关于爪哇岛的信息,但由于“Java编程语言”的含义更为流行,用户很难找到与爪哇岛相关的结果。
与大量关于搜索结果排名的研究相比,关于组织搜索结果并将其有效呈现给用户的研究相对较少。大多数组织搜索结果的工作集中在对结果进行聚类,并将聚类后的结果分组呈现给用户。虽然这些方法显示了聚类搜索结果的一些好处,但它们都面临两个挑战:一是如何确定合适的聚类,二是如何以信息丰富的方式标记这些聚类。
为了解决这两个挑战,本文提出了一种利用维基百科来组织搜索结果的方法。该方法首先使用维基百科确定合适的类别,然后为每个类别提取一组训练文档,并构建一个软分类器,将搜索结果分类到这些类别中。同时,还创建了一个层次结构,以便用户在需要更详细的类别时可以深入浏览。由于维基百科的文章是人工编写和编辑的,因此提取的类别有望更好地匹配用户对文档的理想划分。
2. 搜索结果组织
维基百科是一个免费的协作式在线多语言百科全书。维基百科的基本单位是文章,每篇文章都围绕一个特定的实体、概念或事件展开。通常,每篇文章中的重要词汇都会链接到相应的页面。每篇文章又分为若干个部分,每个部分讨论一个特定的概念,这些概念通常在维基百科中有自己的页
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



