
爬虫
文章平均质量分 86
一只猪的思考
兴趣使然,随缘更新
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
WebMagic快速入门
一、WebMagic介绍 WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java化一些。 而Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic逻辑的核心。 1.1 WebMagic的四个组件 1原创 2022-01-09 14:41:12 · 4551 阅读 · 0 评论 -
布隆过滤器详解(BloomFilter)以及其实现介绍
一、 三种去重方式 1.HashSet 使用java中的HashSet不能重复的特点去重。优点是容易理解。使用方便。 缺点:占用内存大,性能较低。 2.Redis去重 使用Redis的set进行去重。优点是速度快(Redis本身速度就很快),而且去重不会占用爬虫服务器的资源,可以处理更大数据量的数据爬取。 缺点:需要准备Redis服务器,增加开发和使用成本。 3.布隆过滤器(BloomFilter) 使用布隆过滤器也可以实现去重。优点是占用的内存要比使用HashSet要小的多,也适合大量数据的去原创 2022-01-09 14:23:49 · 762 阅读 · 0 评论 -
Java爬虫之HttpClient与Jsoup详解
一、HttpClient 网络爬虫就是用程序帮助我们访问网络上的资源,我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用同样的HTTP协议访问网页。 这里我们使用Java的HTTP协议客户端 HttpClient这个技术,来实现抓取网页数据。 所需依赖 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>h原创 2022-01-06 15:03:41 · 880 阅读 · 0 评论