
爬虫
文章平均质量分 71
关于Java爬虫的基本使用
LatteCJZ
想要的东西都很贵,只能不断地努力奔跑
同是风华正茂,怎可甘拜下风
展开
-
Selenium报cannot find Chrome binary----靠谱系列
Selenium报cannot find Chrome binary----靠谱系列因为浏览器安装时选择非默认路径,这是很多人为了不占用系统盘空间经常干的,但是对于Selenium环境来说就有点困惑,回到Selenium的原理当运行代码,会通过ChromeDriver插件启动一个Socket服务并生成一个Sessionid打开浏览器窗口,而打开这个浏览器窗口是执行浏览器的应用程序文件(如Chrome的chrome.exe),如果浏览器安装的非默认路径,这时候Selenium找不到这个二进制的chrome.原创 2021-06-12 21:57:29 · 816 阅读 · 2 评论 -
定时任务与网页去重、代理的使用
定时任务与网页去重、代理的使用一、定时任务在案例中我们使用的是Spring内置的Spring Task,这是Spring3.0加入的定时任务功能。我们使用注解的方式定时启动爬虫进行数据爬取。我们使用的是@Scheduled注解,其属性如下:1)cron:cron表达式,指定任务在特定时间执行;2)fixedDelay:上一次任务执行完后多久再执行,参数类型为long,单位ms3)fixedDelayString:与fixedDelay含义一样,只是参数类型变为String4)fixedRate原创 2021-04-06 16:41:15 · 266 阅读 · 0 评论 -
WebMagic之使用和定制Pipeline
WebMagic之使用和定制Pipeline在WebMagic中,Pileline是抽取结束后,进行处理的部分,它主要用于抽取结果的保存,也可以定制Pileline可以实现一些通用的功能。在这里我们会定制Pipeline实现数据导入到数据库中Pipeline输出Pipeline的接口定义如下:public interface Pipeline { // ResultItems保存了抽取结果,它是一个Map结构, // 在page.putField(key,value)中保存的数原创 2021-04-06 16:27:59 · 763 阅读 · 0 评论 -
WebMagic之Scheduler组件
WebMagic之Scheduler组件Scheduler是WebMagic中进行URL管理的组件。一般来说,Scheduler包括两个作用:对待抓取的URL队列进行管理对已抓取的URL进行去重。WebMagic内置了几个常用的Scheduler。如果你只是在本地执行规模比较小的爬虫,那么基本无需定制Scheduler,但是了解一下已经提供的几个Scheduler还是有意义的。去重部分被单独抽象成了一个接口:DuplicateRemover,从而可以为同一个Scheduler选择不同原创 2021-04-06 16:08:11 · 634 阅读 · 0 评论 -
爬虫的分类
爬虫分类网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的一、通用网络爬虫通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工原创 2021-04-06 15:55:48 · 1883 阅读 · 0 评论 -
WebMagic入门案例与WebMagic功能
WebMagic入门案例与WebMagic功能一、入门案例加入依赖创建Maven工程,并加入以下依赖<dependencies> <!-- https://mvnrepository.com/artifact/us.codecraft/webmagic-core --> <dependency> <groupId>us.codecraft</groupId> <artifactId>原创 2021-04-06 15:52:15 · 372 阅读 · 0 评论 -
WebMagic介绍
WebMagic介绍WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。WebMagic的设计目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。扩展部分(webmagic-extension)提供一些便捷的功能,例如注解模式编写爬虫等。同时内置了一些常用的组件,便于爬虫开发。架构介绍WebMagic的结构分为Downlo原创 2021-04-06 13:37:34 · 321 阅读 · 0 评论 -
Jsoup
Jsoup我们抓取到页面之后,还需要对页面进行解析。可以使用字符串处理工具解析页面,也可以使用正则表达式,但是这些方法都会带来很大的开发成本,所以我们需要使用一款专门解析html页面的技术。一、jsoup介绍jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下:从一个URL,文件或字符串中解析HTML;使用DOM或CSS选择器来查找、原创 2021-04-06 13:32:35 · 249 阅读 · 0 评论 -
HttpClient
HttpClient网络爬虫就是用程序帮助我们访问网络上的资源,我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用同样的HTTP协议访问网页。这里我们使用Java的HTTP协议客户端 HttpClient这个技术,来实现抓取网页数据。GET请求访问搜狐,请求url地址:http://news.sohu.com/public static void main(String[] args) throws IOException { //创建HttpCli原创 2021-04-06 13:14:18 · 220 阅读 · 0 评论 -
什么是爬虫与入门案例
什么是爬虫与入门案例网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本网络爬虫介绍在大数据时代,信息的采集是一项重要的工作,而互联网中的数据是海量的,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。网络爬虫(Web crawler)也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则,自动地原创 2021-04-06 09:44:15 · 163 阅读 · 0 评论