上篇文章写过jsoup爬虫,感觉写的不太深入,之后有学习的下。
公司让写一个网站爬虫,之前没咋接触过,翻着前辈们的资料看了看,感觉jsoup写着适合入门学者。代码我会放在后面云盘上,有需要的童鞋可以自行下载。
以河南政府采购网为例:http://www.hngp.gov.cn
先说下项目步骤:
1.爬虫列表获取列表中a标签的url,进入详情页面
2.爬取详情页面所需要的信息:标题、发布机构、发布人,发布时间,文章内容
3.将爬取的信息存到数据库(或者将文章内容下载到本地)
直接云盘下载吧!
链接:https://pan.baidu.com/s/1xOVqDeilFv0cnxG6iYhqFw
提取码:7yxj
java jsoup 网站爬虫(2)
最新推荐文章于 2023-02-17 18:38:25 发布