
爬虫
文章平均质量分 57
sl01224318
这个作者很懒,什么都没留下…
展开
-
Chrome Network-Copy介绍
在日常测试中,我们经常会使用谷歌浏览器自带的开发者工具进行抓包,于是了解、学习谷歌的开发者工具对我们十分有帮助。 首先我们按下F12进行开发者工具,然后点击Network,选择一条接口然后右击,弹出一些会话框,这就是几天要介绍的一些内容是做什么的。其中:Open in new tab:在新的标签中打开链接Clear browser cache:清空浏览器缓存Clear browser cookies:清空浏览器cookiesCopy:复制...原创 2022-04-09 14:30:48 · 2491 阅读 · 0 评论 -
点击验证码识别
背景在日常的网站登陆时,我们经常会遇到这种形式的验证码,那就是根据提示进行文字点击,例如B站登陆时让你按照提示依次顺序点击。 在我们做自动化测试时,无论是UI还是APP或者小程序,或多或少的都会遇到这种文字点击识别登陆,对于这种情况,我们可以借用第三方平台“超级鹰”来自动识别并登陆。说明 首先...原创 2022-04-05 11:46:51 · 2157 阅读 · 1 评论 -
打造自己的ip代理池
在爬虫时经常需要使用代理,于是我爬取了一个可以免费提供代理的网址,从中获取免费代理,从而打造属于一个自己的代理池。如图所示,这是网址的界面展示,我们需要做的就是需要其中的ip、port列中的数据,获取数据后需要我们拼接成一个完整的IP然后保存即可,代码如下:import requestsfrom lxml import etreeimport osurl = 'https://www.kuaidaili.com/free/inha/3/'headers =...原创 2022-02-03 15:47:42 · 3236 阅读 · 0 评论 -
代理的使用
urllib代理设置:from urllib.error import URLErrorfrom urllib.request import ProxyHandler,build_openerproxy='192.168.xxx.xxx' #使用本地代理proxy_handl=ProxyHandler({ 'http':'http://'+proxy, 'https':'https://'+proxy})opener=build_opener(proxy_handl)原创 2022-02-03 15:17:05 · 652 阅读 · 0 评论 -
you-get视频下载
说明最近在github、优快云上浏览爬虫相关的博客、代码,无意间发现了一位大神开源的一个名叫“you-get”的爬虫代码,简单了解之后顿时感觉发现了一个“新世界”,使用you-get就可以轻松的下载许多网站的视频、图片和音乐。也不用自己取进行请求,构造请求头,只需安装“you-get”库即可。安装使用you-get库可以直接通过pip进行安装,在python3版本下可以直接安装,这里推荐使用清华源进行安装,下载速度还是很快的:pip install -i https://......原创 2022-01-23 15:12:17 · 493 阅读 · 0 评论 -
Python爬取4K墙纸,想换就换
背景近期换了一个电脑显示屏,需要选择高清照片作为壁纸,于是结合自己平常所学的爬虫爬了一些高清图片来作为壁纸,下图所示:说明 首先选择一个网址,爬取其中的4K图片,主要工作内容是爬取图片和图片名称,然后保存到本地。分析 首先我么打开浏览器开发者工具,找到图片的url连接,经过分析可知,图片的url连接在li标签下面的href属性中,我们点开该链接就可以跳转到图片详情中去,但是这里需要注意的是,href属性内容只是url链接的一部分,我...原创 2022-01-08 21:59:01 · 725 阅读 · 0 评论 -
json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
问题:在上周的爬虫联系中遇到一个问题,就是发送请求运行代码时出现以下报错:这个问题在百度上查了很久,有的说是导致返回的数据不是json类型,也有的说是请求体部分的文件路径写错了(比如发送的请求是给服务器端用url的形式发送一个文件),导致服务器不能正确获取到请求体中索引的文件。经过后面仔细检查代码时才发现是我调用的函数没有返回一个参数值,直接调用时post传的值是None导致。因此此处的修改方法是将print修改成return,这样调用该函数的时候就会返回一个值,而非空值No..原创 2021-08-29 19:38:57 · 587 阅读 · 0 评论 -
Cookie和Session
二者区别小结:1、cookie 和session的区别是:cookie数据保存在客户端,session数据保存在服务器端。2、两个都可以用来存私密的东西,同样也都有有效期的说法,区别在于session是放在服务器上的,过期与否取决于服务期的设定,cookie是存在客户端的,过去与否可以在cookie生成的时候设置进去。3、cookie数据存放在客户的浏览器上,session数据放在服务器上 。4、cookie不是很安全,别人可以分析存放在本地的COOKIE并进行COOKIE欺骗,如果主要考虑原创 2021-08-22 19:19:36 · 186 阅读 · 0 评论 -
selenium+requests获取Post请求参数
背景在日常爬虫中会遇到一些发送验证码的问题,这些验证码一般是出现在登录页面,针对这种情况我们一般的处理思路是发送一个请求来获取验证码,然后把识别到的验证码构造成请求参数。但是有些网页的验证码是实时刷新的,即每次发送一个request请求或者刷新界面的时候,验证码就会改变,例如http://zxgk.court.gov.cn/shixin/这个网址,每次刷新一次,验证码就会改变一次,这样的话就会产生一个问题,就是之前识别出的验证码出现失效问题,导致Post请求时出现失败。 ...原创 2021-08-21 21:37:32 · 5734 阅读 · 1 评论 -
session和requests的区别
区别:requests是做一次请求的,当一次请求结束之后,requests请求的内容就会被释放,类似于“做一次性买卖”。session是做一次请求后,请求不会被立即释放,可以请求跨越多个页面,类似于出去旅游的买的套票,不进可以去A景区,还可以去其他B景区、C景区等。优缺点:request占用资源比较少,但是缺乏持续性,比如每个网站需要先登陆再进行其他操作,这时候就不能用request。session资源的消耗会大点,安全性相对来说也会稍微低点,但可以持续进行会话,session对象能够帮原创 2021-08-15 13:20:14 · 1719 阅读 · 0 评论 -
中国金牌竟来源于这些!
背景说明信息分析代码实现总结背景最近中国奥运健儿在小日子过得不错的日本东京频频传来捷报,大大地振奋了国人的士气,截止写稿时间,中国已获取38枚金牌,排名第一,于是我饶有兴趣的想知道中国奖牌数是来源于哪些项目和运动健儿获得的,然后就有了今天这篇文章。说明 本次奥运奖牌排行榜数据来源于奥林匹克官网,如图所示,该网页说明了各国家的金、银、铜的奖牌分布情况,而且鼠标放置奖牌数量时可跳转到具体的奖牌情况。 ...原创 2021-08-07 21:55:41 · 245 阅读 · 0 评论 -
JS逆向解密凡科网密码
在登录凡科网时通过抓包分析发现其密码是进行了js加密处理的,很好奇他是怎么加密的,然后就尝试着对其加密方式进行分析,现将分析思路和大家分享一下,希望对大家能有个参考作用。 首先使用谷歌开发者工具中的search进行搜索,然后输入搜索的关键字pwd并点击回车,可以看到匹配到的pwd相关的数据,接着进一步进行分析,在这里我们需要进行一个猜测,因为这么多数据我们并不知道具体是哪一个,我们只能选择一个可能性比较大的点击进去。 链接点击进去之后,我们...原创 2021-07-24 16:57:39 · 1574 阅读 · 2 评论 -
Selenium+超级鹰进行识别滑动操作
在日常爬虫过程中会遇到登录时进行图片识别和滑动识别验证,针对这种情况该如何进行呢,在这里和大家分享下我的方法,希望对大家有所帮助。 我的思路是先进行图片验证码识别,然后识别成功后,进入滑动识别界面,使用selenium中的方法来模拟鼠标进行滑动并进行登录,具体流程如下:思路明确之后,就是进行代码编写,以下是具体代码:#-*- coding:utf-8 -*-from selenium import webdriverimport r...原创 2021-07-18 14:50:02 · 2248 阅读 · 12 评论 -
Python中的scrapy下载并保存图片
在日常爬虫练习中,我们爬取到的数据需要进行保存操作,在scrapy中我们可以使用ImagesPipeline这个类来进行相关操作,这个类是scrapy已经封装好的了,我们直接拿来用即可。 在使用ImagesPipeline下载图片数据时,我们需要对其中的三个管道类方法进行重写,其中 — get_media_request 是...原创 2021-07-18 11:02:15 · 6679 阅读 · 16 评论 -
Pytho爬虫-4567电影网电影信息爬取
需求实现每一部电影的简介信息,例如绝地狙杀电影的简介信息。首先分析url地址,每一部电影的电影在“li”标签下面, 每一部电影简介在span标签下,接下来通过scrapy框架来获取。# -*- coding: utf-8 -*-import scrapyfrom moviePro.items import MovieproItemclass MovieSpider(scrapy.Spider): name = 'movie' allowed_do..原创 2021-07-11 17:13:05 · 8216 阅读 · 1 评论 -
Beautiful Soup知道这些就够了
题目:给出一个名字,该名字有26个字符串组成,定义这个字符串的“漂亮度”是其所有字母“漂亮度”的总和。每个字母都有一个“漂亮度”,范围在1到26之间。没有任何两个字母拥有相同的“漂亮度”。字母忽略大小写。给出多个名字,计算每个名字最大可能的“漂亮度”。代码:a = [chr(i) for i in range(97,123)] #生成一个26字母的列表# print(a)# print(a.index('z')) #找出z的索引dic1 = {} #给每一个字母赋原创 2021-07-10 16:44:57 · 413 阅读 · 1 评论 -
爬虫验证码识别
目录背景:说明:验证码识别 思路介绍 验证码获取验证码解析 验证码登陆总结:背景:在日常的爬虫练习时,经常遇到一些网站需要进行验证码登录后才能获取到数据,而且每次登录时的验证码都不相同,这给我们爬虫带来了很大麻烦,因此解决验证码识别的问题就变得十分重要。说明: 为了解决验证码的识别问题,帮助我们更好的进行爬虫练习,在这里我和大家介绍一下我的解决方法,通过这个方法可以...原创 2021-06-26 21:14:31 · 740 阅读 · 1 评论 -
Python动态爬取网页信息
背景在日常的爬虫练习时有些网站的信息是静态的,也就是说我们通过浏览器窗口中的“检查”窗口就可以获取到原创 2021-06-13 18:02:34 · 888 阅读 · 5 评论 -
花瓣网图片爬取
代码:import reimport osimport requestsimport timeglobal PhotoNumPhotoNum = 0PWD = "D:/work/python/pic/huaban/"head = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}TimeOut = 30url = "ht原创 2020-11-28 12:14:10 · 584 阅读 · 0 评论 -
使用cookie进行模拟登陆
前言流程分析代码前言有时候进行一个网页内容的爬取时会遇到密码、账号登录问题,例如我需要爬取这个网站的信息,第一步面临的就是网站的登录,那类似这种问题一般可以通过cookie进行模拟登陆进行解决。那什么是cookie呢,简单来说就是cookie是指某些网站为了辨别用户身份,进行session跟踪而存储在用户本地终端上的数据。这句话什么意思呢,打个比方来说,这就好比你去看电影,你需要先进行预订,预订成功后你会得到一张电影票,等到电影开始时验票人员会根据你买的电影票引导你进入不同的影厅进行观看,那原创 2020-11-15 13:34:48 · 3514 阅读 · 2 评论 -
使用scrapy再次爬取猫眼前100榜单电影
前提:记得去年5月份左右的时候写过一篇使用Requests方法来爬取猫眼榜单电影的文章,今天偶然翻到了这篇文章,又恰巧最近在学scrapy框架进行爬虫,于是饶有兴趣的使用scrapy框架再次进行爬取。说明:如图所示,这次爬取的猫眼榜单网页链接内容大致如下(图1-1),这次需要爬取的信息分别是电影名称、主演、上映时间、电影评分和电影图片链接,然后将获取的电影图片下载保存到本地,如图1-2所示。 ...原创 2020-11-08 13:00:05 · 1735 阅读 · 0 评论 -
scrapy某家租房信息爬取
目的:使用scrapy框架进行租房信息(杭州地区)爬取,包括小区名称,位置,价格,面积,房间朝向、户型等,然后保存到本地csv表格中。分析:某家的网站的爬取不难,看一下页面,要爬取的是小区名称,位置,价格,面积,房间朝向、户型,和房源维护时间,当爬取完当前页面后,再爬取下一页信息,这里主要是使用resquest和xpath方法进行爬取,然后使用pandas库进行数据保存,从而把数据已csv表格的格式保存到本地。...原创 2020-10-25 10:24:51 · 887 阅读 · 1 评论 -
scrapy爬取腾讯大佬知乎账号的粉丝信息
目的:使用scrapy爬取该知乎用户的粉丝信息,包括每一个粉丝的名称、回答问题数量、文章数量和关注者数量。信息获取成功后,保存到Mysql数据库。代码:items.py# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport sc原创 2020-10-17 21:00:59 · 297 阅读 · 0 评论 -
selenium+xpath爬取深圳失信公司
Hello everybody ! 很久没有更新文章了,最近公司太忙了,没得办法。这周和一高中同学聊天,他的职业是一名律师,最近他自己在深圳创业,需要获取“中国执行信息公开网“的一些失信公司信息,作为一个小渣渣的我于是毛遂自荐答应帮他爬取到这些数据。当时本人心里虚的一批,不知道凭自己的渣渣技术能不能帮助到他,但是为了帮助好哥们创业我也就豁出去了,哈哈! 那好,首先我们看下这个网站...原创 2020-01-11 19:54:37 · 1211 阅读 · 2 评论