爬虫
文章平均质量分 95
Duing_
菜就要学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
WebMagic爬虫框架
WebMagic架构介绍WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java化一些。Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic逻辑的核心。WebMagic总体架构图如下:WebMag原创 2020-07-20 10:16:50 · 365 阅读 · 0 评论 -
模拟登陆并爬取教务处信息(附源码)
分析登录请求教务处登录页面输入账号和密码,点击登录浏览器抓取登录的请求信息如下,可以得出点击登录时发送的是Post请求,而且登录时的状态码为200而不是302,说明登录时没有发生重定向,而是直接通过响应传回登录后的页面数据,在通过解析呈现出来请求所带的表单信息如下userName和password携带的是我之前登录输入的用户名和密码经过多次尝试和分析,rnd和code的值是随机的,且对登录没有影响,可以不用管它我尝试用不同的账号和密码登录,发现webfinger的值是固定的us原创 2020-07-14 17:10:57 · 762 阅读 · 1 评论 -
Java网络爬虫(五)——Jsoup解析爬取的数据
Jsoup介绍为什么用Jsoup?我们抓取到页面之后,还需要对页面进行解析。可以使用字符串处理工具解析页面,也可以使用正则表达式,但是这些方法都会带来很大的开发成本,所以我们需要使用一款专门解析html页面的技术。Jsoup介绍Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。Jsoup的主要功能从一个URL、文件或字符串中解析HTML;使原创 2020-07-13 18:54:32 · 450 阅读 · 0 评论 -
Java网络爬虫(四)——连接池和请求参数配置
连接池如果每次请求都要创建HttpClient,会有频繁创建和销毁的问题,可以使用连接池来解决这个问题。测试以下代码,并断点查看每次获取的HttpClient都是不一样的。public class HttpClientPoolTest { public static void main(String[] args) { //创建连接池管理器 PoolingHttpClientConnectionManager connectionManager = new原创 2020-07-13 13:53:41 · 531 阅读 · 0 评论 -
Java网络爬虫(三)——POST请求
POST请求使用POST访问优快云首页代码:public class HttpPostTest { public static void main(String[] args) { //创建HttpClient对象 CloseableHttpClient httpClient = HttpClients.createDefault(); //创建HttpPost对象,设置URL访问地址 HttpPost httpPost =原创 2020-07-13 13:17:09 · 1236 阅读 · 0 评论 -
Java网络爬虫(二)——GET请求
HttpClient网络爬虫就是用程序帮助我们访问网络上的资源,我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用同样的HTTP协议访问网页。这里我们使用Java的HTTP协议客户端 HttpClient这个技术,来实现抓取网页数据。GET请求代码:public class HttpGetTest { public static void main(String[] args) { //创建HttpClient对象 C原创 2020-07-12 20:16:03 · 572 阅读 · 0 评论 -
Java网络爬虫(一)——初识
网络爬虫的概念网络爬虫(Web crawler)也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,可以自动采集所有其能够访问到的页面内容,以获取相关数据。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。爬虫入门程序环境准备JDK1.8IDEAMave原创 2020-07-12 20:15:23 · 248 阅读 · 0 评论
分享