讲解java爬虫

最新推荐文章于 2021-02-16 23:15:58 发布

原创最新推荐文章于 2021-02-16 23:15:58 发布 · 717 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

struts2学习专栏收录该内容

10 篇文章

订阅专栏

讲解爬虫基础

在本文中我将写一个爬虫爬取拉钩网的信息，并存到数据库中。用的是Struts2的框架。

需要的知识：懂得java语言语法，Html语法。

进入正题：

一、明确要抓取的信息。

比如说我在这个webapp中要抓取的信息是：

工作名称，公司名称，公司网址，福利，月工资，发布日期，工作地点，工作性质，最低学历，职位类别

1、建立一个Struts2 web项目导入需要的架包

2、搭建起基本的框架

3、建立连接

利用方法获取连接

Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2");

Document对象是网页解析之后的一种对象类型，在加载后可以输出。

当我输出时发现，得不到我想要的内容，于是输出整个网页看一下，发现结果是这样的

此时分析可能的原因，一般来说是网站采取了，反爬虫机制，首先尝试第一种就是写入浏览器的头文件。

Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2").userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0").get();

这样再运行一下就可以的到想要的内容

3、分析网页

建议大家使用谷歌浏览器，F12分析源码。

大家可以清晰的看到它的结构，所以也不需要借用其他工具了。

Elements elements = doc.select("ul[class=item_con_list]").select("li[class=con_list_item default_list]");

利用选择器选择本页面所有的职业信息Elements是element的集合，接下来一步一步抓取需要的信息。

输出所需的信息

这样的到的数据，输出就是这样的，我们就可以把他添加到数据库中了。

那些就不再说了。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。