网页集合中动态内容的摘要提取
1. 引言
在文档摘要提取研究中,摘要通常是从报纸文章或静态文档构建的。然而,在网络日益重要的时代,对网页摘要提取的关注变得尤为必要。目前,专门为网页体裁设计的摘要提取方法较少。网络是一个动态且异构的环境,这使得传统文本分析技术难以直接应用于网页空间。
网页与其他文档格式的一个重要区别在于其内容和结构会随时间变化。许多热门网页不断更新、演变并提供新信息,因此应将网页视为动态对象。这种摘要提取任务与标准的多文档摘要提取不同,它专注于网页内容的变化。
网页文档变化摘要提取有诸多益处。例如,用户可能想了解其喜爱的网页集合在特定时间段内的热门内容,但手动访问每个网页来发现重要变化十分困难。通过精心选择信息源,可以构建一个关于特定主题的网页集合,将其视为一个复杂的信息源,从中获取与用户定义主题相关的主要事件和热门变化。
此外,当前搜索引擎无法检索网页的所有变化数据,导致大量信息丢失,因为网页内容变化太快,任何系统都难以抓取和存储每个修改版本的文档。
本文提出的方法可普遍应用于各种类型的网页,但对于某些特定类型的网页,如新闻专线、公司网页或邮件列表,可能需要改进方法以提高效率。由于网页类型众多且分类困难,我们试图提供通用的摘要提取解决方案,而不是针对特定类型的文档。该方法适用于动态网页,对于静态网页,现有文档摘要提取方法可能效果更好。同时,为了获得有意义的摘要,网页的不同时间版本应具有主题连续性。
在我们的方法中,主要关注单个网页,忽略了链接和相邻页面。但该算法可以扩展到处理网站集合或链接网页组,通过定义渗透深度来跟踪网页网络。
2. 相关工作
主题检测与跟踪