
爬虫
小伟123456789
微信:1311905780
展开
-
新技能get
俗话说“万事开头难”,前几天用java模拟登陆人人、微博、QQ空间、Quora遇到了一些困难。 使用httpclient来进行模拟登陆并没有让人觉得轻松。 第一点是中文文档的匮乏,目前网上的资料有两个版本,第一个是httpclient 3.x,另外一个是httpclient 4.x,而这两个版本的差别还是蛮大的。两种不同版本的资料相互杂交,让人看了心烦。而英文文档就相对丰富一些了原创 2016-08-16 23:45:44 · 453 阅读 · 0 评论 -
使用jsoup选择器来查找元素
问题背景 使用java爬取拉勾网上职位信息。 首先,解析拉勾网职位信息网页,找出需要提取的信息并存入数据库。 之前尝试的方法:使用过解析json文件,但每个json文件只有15条信息,而且同一电脑多次访问网站会遇到限制(反爬虫)。 解析网页时使用正则表达式:优点:代码简介;缺点:正则表达式较为复杂,新手理解较为困难。 目前解决的办法原创 2016-08-11 09:50:14 · 22303 阅读 · 1 评论 -
拉勾网爬虫
源代码:https://github.com/carlblocking/xxw-for-public/tree/master/LaGouSpider 前几天写了一个知乎网的爬虫并爬取了一些数据,然而新鲜感消失的很快。于是,大概2天前开始试着爬取拉勾网上的数据。 在解析数据的过程中,知乎爬虫主要通过正则表达式来解析网页,而这次则通过jsoup来解析。在运行的过程中,能明显感受到二者的区别。 首原创 2016-08-12 19:49:42 · 3499 阅读 · 0 评论 -
一个简单的爬虫——收集安居客上海租房信息
Part 1: 2016年8月13号晚开始写第三个爬虫小程序(安居客),至8月14号中午完成编写并运行成功。 项目源码:https://github.com/carlblocking/xxw-for-public/tree/master/AnJuKeSpider 总体思路: 这里借鉴了Web Magic的框架,但没有完全照搬。这里对于Web Magic,个人还是有一点小意见,即里原创 2016-08-14 15:04:59 · 8313 阅读 · 3 评论