网站信息提取与网格金融门户开发技术解析
网站信息提取系统
在当今互联网时代,信息提取是获取有价值数据的关键技术。传统的信息提取系统大多基于文档内信息独立提取的假设,但在网页环境中,信息往往分散在多个页面,因此需要新的方法来实现网站级别的信息提取。
系统概述
网站信息提取系统包含两个主要组件:基于启发式的网页搜索和页面级信息提取。该系统旨在解决如何通过链接找到包含目标信息的页面,并将多页面提取的数据整合到预定义模板中的问题。
页面搜索方法
页面搜索是该系统的第一步,采用了三步策略:
1. 启发式搜索 :利用特定领域的启发式规则,而非特定网站的链接路径。通过研究不同领域的40多个网站,发现链接结构和链接文本中的关键词对页面搜索非常有帮助。
- 链接结构表示为DAG :使用有向无环图(DAG)来表示链接结构,能够有效捕捉同一领域网站的相似性。DAG中的每个节点代表一组链接类型,通过遍历DAG可以找到目标信息。例如,在大学网站中查找员工研究兴趣的链接路径可以用DAG表示。
- DAG节点作为关键词列表 :为DAG中的每个节点使用关键词列表来指定链接类型。关键词按相关性排序,包含更多关键词的链接优先遍历。
2. 广度或深度优先搜索 :如果启发式搜索失败,则使用广度优先搜索或深度优先搜索遍历所有页面链接。
3. 借助Google搜索 :若前两种搜索方法都失败,使用Google的“我感觉幸运”模式查找页面。 <
超级会员免费看
订阅专栏 解锁全文
965

被折叠的 条评论
为什么被折叠?



