初始连接地址开始爬行->分析页面->取得有效联结地址(认为有产品购买详情的为有效联结,而一般广告去掉)
->使用模板分析页面,得到有价值信息->生成反索引文件(Luncene)
本文介绍了网页爬虫的工作流程:从初始连接地址开始爬行,分析页面并获取有效链接地址,去除广告链接;接着使用模板进一步分析页面内容,提取有价值的信息;最后生成反索引文件以备后续检索使用。
初始连接地址开始爬行->分析页面->取得有效联结地址(认为有产品购买详情的为有效联结,而一般广告去掉)
->使用模板分析页面,得到有价值信息->生成反索引文件(Luncene)

被折叠的 条评论
为什么被折叠?