
python爬虫
文章平均质量分 75
X-Hoshino
这个作者很懒,什么都没留下…
展开
-
wordcloud的使用
wordcloud的介绍及使用方法,Mysql数据库配合使用wordcloud原创 2022-06-05 13:18:12 · 2714 阅读 · 0 评论 -
python爬虫scrapy之请求传参、使用selenium和CrawlSpider
我们在spider中经常使用了两个或多个方法来用作数据解析,且每个都是解析不同的数据内容,那我们的item又只能实例化一次,我们要怎么把item类型对象分配到不同的方法中呢?当我们使用scrapy爬取的数据是动态加载的怎么办呢?scrapy中怎么使用selenium呢?怎么使用crawlspider呢?CrawlSpider的常用有哪些呢?怎么实现全站数据爬虫呢?原创 2022-02-22 18:45:18 · 1313 阅读 · 0 评论 -
python爬虫之scrapy的应用
让我们看看创建一个scrapy项目,怎么使用,scrapy的常用方法是什么,怎么存储,怎么写代码原创 2022-02-22 15:55:43 · 1063 阅读 · 1 评论 -
python爬虫之scrapy框架
什么是scrapyScrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。scrapy五大部件Scrapy Engine(引擎):用来处理整个系统不同模块之间的数据,信号传递。(框架核心)Scheduler(调度器):用来接收引擎发过来的request请求,压入队列中,并在引擎原创 2022-02-18 20:06:41 · 1665 阅读 · 0 评论 -
python爬虫之selenium模块
当我们使用python爬虫,想爬取一个网页的数据时,要知道该网页的数据有没有动态加载出来的,没有的话就可以向该网页发起请求拿到数据,有那就要使用selenium模块了。那我们怎么知道网页的数据是不是动态加载出来的呢?在想要爬取的页面打开开发者工具,然后在元素(element)下找到自己想要的数据,之后在去网络(network)下刷新一下页面,一般是第一个包打开看标头(headers)里请求url和和当前的网页的url是不是一样的,要找到一样的。找到之后点击响应(response),在里面找有没有之前原创 2022-02-17 20:22:53 · 4606 阅读 · 0 评论 -
python爬虫Cookie的作用和session的使用
首先解释一下什么是cookie,这里借鉴mcrwayfun博主对cookie的解释。COOKIE:HTTP协议本身是无状态的。什么是无状态呢,即服务器无法判断用户身份。Cookie实际上是一小段的文本信息(key-value格式)。客户端向服务器发起请求,如果服务器需要记录该用户状态,就使用response向客户端浏览器颁发一个Cookie。客户端浏览器会把Cookie保存起来。当浏览器再请求该网站时,浏览器把请求的网址连同该Cookie一同提交给服务器。服务器检查该Cookie,以此来辨认用户状态原创 2022-02-16 18:44:06 · 2467 阅读 · 0 评论 -
python爬虫模拟登录之图片验证码
我们在用爬虫对门户网站进行模拟登录是总会有输入图片验证码的,例如这种那我们怎么解决这个问题实现全自动的模拟登录呢?只要思想不滑坡,办法总比困难多。我这里使用的是百度智能云里面的文字识别功能,每天好像可以免费使用个几百次,识别效果也还行,对一般人而言是够用了。接下来说说,怎么使用。首先,打开百度智能云(https://cloud.baidu.com/)进行登入,再进入人工智能->文字识别里创建应用。在使用名称和底下应用描述随便写写,然后点立即创建。创建完...原创 2022-02-16 16:47:20 · 4401 阅读 · 1 评论 -
python爬虫解决中文乱码和爬取美女图片
本来是想试试随便爬取一下图片的,结果打印的时候就出现了中文乱码。代码是这样的# -- coding:UTF-8 --from lxml import etreeimport requestsimport osif __name__ == "__main__": if not os.path.exists('美女图片'): os.mkdir('美女图片') headers = { "user-agent": "Mozilla / 5.0(W原创 2022-02-15 19:04:51 · 1357 阅读 · 1 评论 -
python爬虫之数据解析(XPath)
xpath是python爬虫最常用的数据解析方法了,我觉得也是最简单的,通用性也很强,后面会说为什么是最简单的。主要步骤有两步。1、实例化一个etree对象,且需要将被解析的页面源码数据加载到该对象中。2、调用etree对象中的xpath方法,结合xpath表达式定位标签和爬取内容文本或属性。怎么实例化一个etree对象呢?首先下载lxml库然后导入etree包,然后就是将本地的HTML文档源码数据加载到etree对象中,或者是将实时的网页页面源码数据加载到etree中。from lxml原创 2022-02-15 18:14:29 · 1755 阅读 · 0 评论 -
python爬虫之数据解析(BeautifulSoup)
BeautifulSoup也是python爬虫常用的一种数据解析方法,主要就两步。1、实例化一个Beautifulsoup对象,平且将页面源码数据加载到该对象中。2、通过调用Beautifulsoup对象中相关的属性或者方法进行标签定位和数据提取。怎么实例化一个Beautifulsoup对象呢?首先下载好bs4这个库,然后倒入BeautifulSoup包,然后就是将本地的HTML文档源码数据加载到Beautifulsoup对象中,或者是将实时的网页页面源码数据加载到Beautifulsoup原创 2022-02-15 16:03:00 · 2023 阅读 · 0 评论 -
python爬虫之数据解析(正则表达式)
python爬虫的数据解析常用的就三种:1、正则表达式2、bs43、xpath其中又以xpath最为常用。数据解析原理概述:这就是根据HTML特性,找到指定标签的定位,然后爬取属性或文本。(正则有点不一样)正则表达式正则就是写一个“字符串”去匹配文本,符合的就留下,那重点就是怎么写好“字符串”了,在python中要使用正则表达式就要导入Re库,以下举例的都是英文标点符号。常用操作符操作符 说明 实例 . 表示任何单个字符(不包括换行符)原创 2022-02-14 21:28:02 · 1489 阅读 · 0 评论 -
UA伪装,requests中get和post携带参数,获取json格式的内容
首先我们来学习一种反反爬策略UA伪装。UA是User-Agent(请求载体的身份标识)绝大多数网站都有一种UA检测的反爬机制,就是会检测请求载体的身份标识,如果检测到请求载体的身份标识为某一款浏览器,说明该请求正常,反之如果检测身份标识不是基于浏览器,那就是爬虫,很有可能服务器端拒绝该次请求。UA伪装:让爬虫的身份标识伪装成某一款浏览器。怎么伪装呢?首先打开浏览器,按右键点击检查或者直接同时按fn和f12就打开了开发者工具然后选择网络,在选择一个请求的头部,往下翻找到User-A原创 2022-02-13 20:48:31 · 1776 阅读 · 0 评论 -
requests模块的用法
python中对网页发起请求的库有urllib和requests,Python爬虫时,更建议用requests库。因为requests比urllib更为便捷。那request库的作用就是模拟浏览器向网页发起请求。如何使用呢?可以分成5步。1、指定url2、发送请求3、获取响应数据4、解析数据5、保存数据开始编程首先在pycharm中下载requests库,在文件->设置->项目 找到python解释器点击左上角的+号,输入requests,然后安装。建原创 2022-02-13 18:39:31 · 710 阅读 · 0 评论 -
robots协议
在我们用爬虫去爬取数据时,有些网站不会阻止,但有的网站就不会那么轻松的把数据交给你爬取,所以就有了 反爬机制。那我们就想要有反爬机制的数据怎么办,于是就有了反反爬策略。反爬机制门户网站可以制定相应的策略和技术手段,阻止爬虫程序对网站数据的爬取。反反爬策略爬虫程序通过制定相应的策略和技术手段,破解门户网站中具备的反爬机制,从而可以获取网站的数据。它们的关系就很像矛和盾,之后我们会接触到很多的反爬机制,也会学习到很多的反反爬策略。现在就来学习一种最简单的反爬机制robots协议也叫君子协议。原创 2022-02-13 16:15:31 · 1907 阅读 · 0 评论 -
浅谈一下python爬虫
最近在学习python爬虫,就顺便记录一下当作笔记。爬虫:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。以上是百度百科的解释,通俗来讲爬虫就是编写程序,模拟浏览器去互联网上选择出我们所需要的数据。爬虫合法吗?爬虫这门技术在法律中是不被禁止的,但是如果我们干扰了被访问网站的正常运行和爬取了受到法律保护的特定类型的数据信息,就可能会有原创 2022-02-13 15:16:58 · 167 阅读 · 0 评论