爬虫
AaronLin_
用户名的QQ不是我的真实QQ
是优快云自己乱分配的- -
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
五种实现网络爬虫的方法(四,selenium的使用 五,phantomjs的使用)
咕咕咕selenium其实是一个更偏向于自动化测试的工具,当然物尽其用嘛,我主要用selenium来抓JS动态加载的网页,虽然速度没有直接http请求快,但是效果还是不错的。首先我们要配置selenium的环境,我使用的是mavenpox.xml中添加<dependency> <groupId>org.seleniumhq.selenium<...原创 2018-09-02 20:52:58 · 456 阅读 · 0 评论 -
五种实现网络爬虫的方法(三,基于httpclient编写爬虫)
咕咕咕~总所周知httpclient是java爬虫的利器,一般我个人开发,都是用httpclient来编写抓取登陆代理等,用jsoup,xpath,正则来处理解析。废话不多说直接上代码。public static String getPageContent(String url) { // 创建一个客户端,类似于打开一个浏览器 DefaultHttpClient http...原创 2018-09-02 20:33:20 · 2685 阅读 · 0 评论 -
五种实现网络爬虫的方法(二,基于HttpURLConnection类编写爬虫)
好了,接上一篇。这篇是基于HttpURLConnection类编写爬虫:java se的net包的核心类,主要用于http的相关操作。这时候我们的项目结构就变成这样了。可以看到多了几个类,主要用HttpURLConnection的主要就是HttpUrlConnectionCrawlerImpl类,其他多出来的两个类主要是为了让项目便于管理和维护。UrlPojo类也加入了一个函数public Htt...原创 2018-06-24 16:26:51 · 2378 阅读 · 4 评论 -
总结一下五种实现网络爬虫的方法(一,基于socket通信编写爬虫)
最近呢,由于实习需要呢,复习一遍爬虫,前断时间闭关刷题去了,也会把刷题心得总结成博客分享给大家,比如java集合类特性及源码解析,操作系统数据结构的一些算法等,放心,肯定不会鸽的,虽然可能会晚一点写。言归正传,java实现网络爬虫一般有五种方法(据我所知,要是有其他方法的同学欢迎分享)1.基于socket通信编写爬虫:最底层的方式,同时也是执行最高效的,不过开发效率最低。2.基于HttpURLCo...原创 2018-06-20 23:10:49 · 15252 阅读 · 1 评论 -
java爬取闲鱼商品信息(三)
这一篇距离前两篇更新的时间有点久了,最近忙着刷题- -。好了,上次说到没办法获取到动态加载的部分。我用了phantomjs尝试了一下,多获取到的部分是复杂的js代码,代码量太大了,没找到我们需要的信息。也可能是我使用的方式不对,要是有可以获得的方法欢迎大家在评论介绍一下,我去试试看。好了,最后我还是弄到了动态加载的数据,当然不是用的phantomjs。既然找不到数据,那为什么不...原创 2018-04-09 17:05:21 · 5221 阅读 · 9 评论 -
java爬取闲鱼商品信息(二)
有了需要爬取的起点队列。接下来就可以细看一下源码中html的规则。上面这一段就是一个商品在html源码中的结构。这里面包含了,卖家头像,ID,vip等级,主页,各种图片,商品基本信息,地址等等东西当然,我们不需要全部的信息,我们只需要卖家ID,商品标题,内容,价格,发货地,成色,主页链接,图片链接,这样就够了。我的思路是构造一段正则表达式来遍历整个网页源码,因为结构相似,我们可以抓取到商品的信息。...原创 2018-03-20 23:54:58 · 7485 阅读 · 6 评论 -
java爬取闲鱼商品信息(一)
闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车。好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手。预计达到的目标:第一步,将闲鱼上发布的商品信息爬取到本地。 第二步,实现关键词价格域提醒,比如设置想要找一个5000以下的IPHONE X,可爱的爬虫在闲鱼抓信息...原创 2018-03-20 23:26:04 · 17950 阅读 · 10 评论 -
mysql 数据库中的三种判断是否包含总结
原文:http://blog.51cto.com/kaigejava/2084552应用场景:1:在使用mysql数据库进行存储数据的时候,有时候,一个字段,要存储使用逗号分隔的多个数据,在查询的时候,传递的是一个keyword,需要在逗号分隔的字段中进行查询,这种情况怎么处理?比如:在爬虫爬取的时候,指定关键字查询,关键字可以是多个用逗号分隔。数据库中对应的字段是:key_word,存储的数据,...转载 2018-03-14 21:13:21 · 5543 阅读 · 0 评论 -
java爬虫爬取微博热搜榜
在网上稍微看了一下,好像还没有爬取微博热搜的java实例,心血来潮就动手写一个简易版的,之后会不会升级再说。首先我们点开微博热搜榜电脑版,然后查看源码。我们可以看到body的构成很简单,几乎没有什么东西,再往下滑就不得了了,没错,意料之中有很多script就算不看源码我们分析也可以知道这应该是一个js动态页面,因为我们一点进去,里面都是实时的数据。然后我们fidder抓下数原创 2017-12-10 16:03:20 · 8314 阅读 · 3 评论 -
第一个开源项目,爬虫+布隆过滤器(写的有点滑稽大家见谅),上传到github上了
主要是一个封装的爬虫框架和可定制可持久化的布隆过滤器水平有限,跪求大家给个star~第一个版本爬虫部分还有些问题没修复。可以用用布隆过滤器。导入jar后。基本操作如下BoolmFilter.setFilePath("布隆过滤器持久化地址txt形式"); BoolmFilter boolmFilter=BoolmFilter.getBoolmFilter();//默认为10...原创 2018-09-02 21:46:06 · 564 阅读 · 0 评论
分享