讲解java爬虫

                                                              讲解爬虫基础

在本文中我将写一个爬虫爬取拉钩网的信息,并存到数据库中。用的是Struts2的框架。

需要的知识:懂得java语言语法,Html语法。

进入正题:

一、明确要抓取的信息。

比如说我在这个webapp中要抓取的信息是:

工作名称,公司名称,公司网址,福利,月工资,发布日期,工作地点,工作性质,最低学历,职位类别

1、建立一个Struts2 web项目导入需要的架包

2、搭建起基本的框架


3、建立连接

利用方法获取连接

Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2");

Document对象是网页解析之后的一种对象类型,在加载后可以输出。

当我输出时发现,得不到我想要的内容,于是输出整个网页看一下,发现结果是这样的


此时分析可能的原因,一般来说是网站采取了,反爬虫机制,首先尝试第一种就是写入浏览器的头文件。

Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2").userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0").get();

这样再运行一下就可以的到想要的内容

3、分析网页

建议大家使用谷歌浏览器,F12分析源码。


大家可以清晰的看到它的结构,所以也不需要借用其他工具了。

Elements  elements = doc.select("ul[class=item_con_list]").select("li[class=con_list_item default_list]");

利用选择器选择本页面所有的职业信息Elements是element的集合,接下来一步一步抓取需要的信息。

输出所需的信息


这样的到的数据,输出就是这样的,我们就可以把他添加到数据库中了。

那些就不再说了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值