一、说明
聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
经过二十天的学习实践,参考了很多资料,写了个简单的搜索引擎,存在许多待优化之处。忘各位网友能提出好的建议。
主要是抓取网上商店的商品信息并存储,然后提供搜索界面展示信息。此处主要以淘宝为测试平台。
开发环境:ubuntu+eclipse
服务器:tomcat
开发语言:java,html,jsp
数据库:Berkeley DB
第三方jar包:jsoup(html分析),je(用于连接Berkeley DB数据库)
聚集爬虫的
二、总体设计

以上流程图并不能反应整个爬虫程序的流程,其中没有把已访问的url表画上去。根据此流程图,主要包括:URL队列和已访问url

本文介绍了聚焦爬虫的基本原理和区别,分享了一款作者通过二十天学习实践完成的简单搜索引擎,主要用于抓取和搜索商品信息,特别是在淘宝平台。该搜索引擎采用Java开发,结合HTML、JSP和Berkeley DB数据库,使用jsoup和je库。文章提到了总体设计和代码结构,包括URL管理、下载器、缓冲池、页面解析、存储、索引等关键组件,并提供了源码下载链接。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



