讲解爬虫基础
在本文中我将写一个爬虫爬取拉钩网的信息,并存到数据库中。用的是Struts2的框架。
需要的知识:懂得java语言语法,Html语法。
进入正题:
一、明确要抓取的信息。
比如说我在这个webapp中要抓取的信息是:
工作名称,公司名称,公司网址,福利,月工资,发布日期,工作地点,工作性质,最低学历,职位类别
1、建立一个Struts2 web项目导入需要的架包
2、搭建起基本的框架
3、建立连接
利用方法获取连接
Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2");
Document对象是网页解析之后的一种对象类型,在加载后可以输出。
当我输出时发现,得不到我想要的内容,于是输出整个网页看一下,发现结果是这样的
此时分析可能的原因,一般来说是网站采取了,反爬虫机制,首先尝试第一种就是写入浏览器的头文件。
Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2").userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0").get();
这样再运行一下就可以的到想要的内容
3、分析网页
建议大家使用谷歌浏览器,F12分析源码。
大家可以清晰的看到它的结构,所以也不需要借用其他工具了。
Elements elements = doc.select("ul[class=item_con_list]").select("li[class=con_list_item default_list]");
利用选择器选择本页面所有的职业信息Elements是element的集合,接下来一步一步抓取需要的信息。
输出所需的信息
这样的到的数据,输出就是这样的,我们就可以把他添加到数据库中了。
那些就不再说了。