利用 InfoBeacons 引导查询至信息源
1. 引言
互联网上存在大量动态的信息源,提供了丰富的有用信息。然而,要确定哪些信息源对特定查询有用却颇具挑战。现有的大多数技术要么需要信息源明确合作(如导出数据摘要),要么构建相对静态的信息源特征描述(如为信息源分配主题)。
一个能让用户找到合适信息源的系统,需同时应对以下四个挑战:
- 规模 :潜在信息源数量众多,数据总量巨大。
- 动态性 :新信息源不断涌现,旧信息源频繁消失,且许多信息源中的信息不断更新。
- 异构性 :不同网站的信息结构和语义差异很大。
- 有限的信息源合作 :虽然信息源愿意通过 HTML 表单或 Web 服务接口提供基本的搜索和检索功能,但它们通常不愿意导出所有数据、更改查询模型、运行外部软件或进行其他功能修改。
为应对这些挑战,我们正在开发一个名为 InfoBeacons 的对等中间件系统。该系统的功能类似于静态网页搜索引擎:用户向信标提交查询,信标返回结果。如果信标无法提供足够的结果,它会将查询路由到对等覆盖网络中的相邻信标。
InfoBeacons 系统基于两个基本原则设计:
- 系统由一组信标组成,这些轻量级中间件组件与多个信息源松散耦合。信标使用信息源现有的搜索和检索接口,无需进行复杂的语义集成或要求信息源提供额外功能。
- 系统将大部分查询处理工作推给信息源本身,信标主要负责选择信息源并检索结果。这样可以利用信息源的聚合资源,减少每个信标的负载,同时确保用户能获取最
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



