聚集搜索引擎java实现

最新推荐文章于 2024-02-07 22:12:22 发布

原创

最新推荐文章于 2024-02-07 22:12:22 发布 · 3.7k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#搜索引擎 #java #url #数据库 #thread #存储

本文介绍了聚焦爬虫的基本原理和区别，分享了一款作者通过二十天学习实践完成的简单搜索引擎，主要用于抓取和搜索商品信息，特别是在淘宝平台。该搜索引擎采用Java开发，结合HTML、JSP和Berkeley DB数据库，使用jsoup和je库。文章提到了总体设计和代码结构，包括URL管理、下载器、缓冲池、页面解析、存储、索引等关键组件，并提供了源码下载链接。

一、说明

聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

经过二十天的学习实践，参考了很多资料，写了个简单的搜索引擎，存在许多待优化之处。忘各位网友能提出好的建议。

主要是抓取网上商店的商品信息并存储，然后提供搜索界面展示信息。此处主要以淘宝为测试平台。

开发环境：ubuntu+eclipse

服务器：tomcat

开发语言：java，html，jsp

数据库：Berkeley DB

第三方jar包：jsoup（html分析），je（用于连接Berkeley DB数据库）

聚集爬虫的

二、总体设计

以上流程图并不能反应整个爬虫程序的流程，其中没有把已访问的url表画上去。根据此流程图，主要包括：URL队列和已访问url

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。