
爬虫
那个她,
寸言思身
展开
-
Scrapy初识与创建
Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~一.安装Scrapy框架因为功能十分强大,所以依赖很多库,不能直接安装,需要先安装依赖库,因为我的电脑在Windows下,所以这里展示Windows下的安装方法(如果有其他平台的需要,欢迎给我留言我在发出来)需要安装4个依赖库分别是1.lxml(这个最重要),使用pip命令安装pip3 install lxml若原创 2020-06-02 13:25:22 · 226 阅读 · 0 评论 -
XPath基本使用教程
一:简介XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。二:XPath节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。案例:<?xml version="1.0" encoding="UTF-8"?><bookstore&原创 2020-06-02 11:22:26 · 1500 阅读 · 0 评论 -
正则表达式萌新详解
在我们使用爬虫进行大型网站数据的爬取时我们肯定会用到数据解析,正则表达式是数据解析方法的一种。正则表达式模式描述^匹配字符串的开头$匹配字符串的末尾。.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。[…]用来表示一组字符,单独列出:[amk] 匹配 ‘a’,‘m’或’k’[^…]不在[]中的字符:...原创 2020-04-07 14:07:32 · 339 阅读 · 0 评论 -
requests实战爬取生产许可证信息
本次案例涉及到requests的使用比较全面!!!首先我们打开网址:化妆品许可证图1:图2:这里我们要爬取的信息就是上图中的许可证信息。这里我们分析一下,如果我们要获取到图2中的信息,首先我们要得到它的url,它的url也只能通过图1中的数据获得。步入正题:我们使用抓包工具看一下数据到底是怎么传输的:这里我们找到了这个请求,我么发现在它的返回response中并没有有关企...原创 2020-04-04 11:36:28 · 435 阅读 · 0 评论 -
Requests实战小案例----豆瓣
今天我们看一下如何爬取豆瓣的电影信息。首先我们打开豆瓣电影的网页,这里我随便一个分类。这里我们看到页面中只有这20个电影,点击加载更多会继续向服务器发送请求然后返回数据。话不多说,开发者工具看走一走。这里我们点击“加载更多”会发送这样一个请求。我们可以从这个请求中发现哪些我们需要的内容呢?1.Request Url2.数据类型3.传递的参数ok,需要的东西我们都找到了,接...原创 2020-04-01 14:14:48 · 230 阅读 · 0 评论 -
requests案例--度娘翻译
我们首先打开百度翻译页面当我们搜索单词时,这里我搜多“dog”看一下。这里我们发现页面中只有部分内容发生变化。然后我们抓下包:这里我们发现很多数据包,只有图中的kw参数是“dog”,然后我们看一下Request Url。这里我们找到了Request Url,同时我们也发现了返回的数据类型为json类型。这里我们也找到了json数据。接下来就是我们的代码:import req...原创 2020-03-31 20:10:42 · 361 阅读 · 0 评论 -
爬虫的初始深入
爬虫再使用场景中的分类1.通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据。2.聚焦爬虫:是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。3.增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更细出来的数据。爬虫的矛盾反爬机制:相关的门户网站通过定制相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。反反爬策略:爬虫程序通过制定相关的策略或者技术手段用来破...原创 2020-03-31 13:24:21 · 153 阅读 · 0 评论 -
HTTP协议详解
HTTP协议简介超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础。HTTP协议是基于C/S架构进行通信的,而HTTP协议的服务器端实现程序有httpd、nginx等,其客户端的实现程序主要是Web浏览器,例如Firefox、InternetExplorer、Goo...原创 2020-03-18 18:53:16 · 1916 阅读 · 0 评论 -
Urllib中基本使用一(发送请求)
日常生活中我们浏览的那些网页例如:淘宝,百度,京东等等的网页,表面上看有各种特效和动画,实际上都是由后台的代码(HTML,CSS,JS等)经过浏览器解释才呈现出来的。今天我们要做的就是爬取网页的源码。1.urlopen:import urllib.requestresponse = urllib.request.urlopen("https://www.taobao.com/")dat...原创 2020-03-17 19:36:35 · 392 阅读 · 0 评论 -
Python多线程
首先我们区分一下线程和进程:进程和线程的关系:(1)一个线程只能属于一个进程,而一个进程可以有多个线程,但至少有一个线程。(2)资源分配给进程,同一进程的所有线程共享该进程的所有资源。(3)处理机分给线程,即真正在处理机上运行的是线程(4)线程在执行过程中,需要协作同步。不同进程的线程间要利用消息通信的办法实现同步。线程是指进程内的一个执行单元,也是进程内的可调度实体.进程与线...原创 2020-02-09 19:30:12 · 572 阅读 · 0 评论 -
通过网易云API爬取评论
网上的爬取网易云评论的方法大多数是讲如何构建参数去破解它的一些加密,然后再去爬取评论。但是我们可以通过网易云的API接口,因为它是属于非加密的get请求,所以难度就直线下降。这里有一点需要注意:在一首歌每页显示20条评论的情况下,只有前500页是不重复的评论,从500页之后都是第500页的内容。在网页端和pc端都是这样。也就是说我们只能爬取到最多2万条数据。同时在XHR中发现获取不到的评论...原创 2020-02-04 13:13:14 · 3311 阅读 · 2 评论