
爬虫
python爬虫
北条苒茗殇
这个作者很懒,什么都没留下…
展开
-
pyspider的运行问题
在安装好pyspider后,运行pyspider all 命令后发现运行不起来,后来百度查找相关问题,在python3.7中async作为关键字了,需要把pyspider中的async进行替换,可以替换成a_sync或者其它自己觉得顺眼就行。当然还有降版本这一方法。1 python/.../site-packages/pyspider/run.py2 python/.../site-packa...原创 2019-08-14 17:08:15 · 509 阅读 · 0 评论 -
scrapy漫画爬虫-漫客栈
目标爬取漫客栈上的免费漫画思路使用scrapy进行爬取,写个pipeline进行存储到数据库,去重以及下载保存。spider部分每个漫画的信息都存储在了div中,先获取一个div_list,然后再遍历进行需要的信息的收集。div_list = response.xpath("//div[@class='cate-comic-list clearfix']/div")for div i...原创 2019-09-10 22:58:41 · 540 阅读 · 0 评论 -
scrapy爬虫-美图录
最近写了个爬虫练练手,爬取的网站为美图录。这次爬取的是美图录里气质这一个模块,如果想爬取其他模块,可以把url地址自行修改。403服务器错误当爬取完数据,获取到图片的链接时,直接请求图片的链接会出现403的错误,提示没有权限。出现这个问题时,首先尝试了用selenium来进行测试,发现直接请求是不可以的。然后之前有了解到不少的网站有referer防盗链的设置,然后也通过网上搜寻相关的资料,在测...原创 2020-07-14 21:56:34 · 6085 阅读 · 0 评论 -
Scrapy框架学习笔记(4)
携带cookie登录在scrapy中,携带cookie需要重新定义一个start_requests方法。`def start_requests(self): cookies = “ ” cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")} yield scrapy.Request(...原创 2019-07-20 17:46:34 · 121 阅读 · 0 评论 -
Scrapy框架学习笔记(3)
Crawl spider创建项目指令跟普通的工程一样,生成爬虫则为scrapy genspider -t crawl 爬虫名称 域。rules定义提取url地址的规则。其中的LinkExtractor为连接提取器,提取URL地址。callback:把提取出来的URL地址的response进行处理。follow:当前url地址是否重新进过rules来提取url地址。注意点1.页面提取的...原创 2019-07-20 10:01:49 · 100 阅读 · 0 评论 -
Scrapy框架学习笔记(2)
scrapy.Request需要在另一个链接中进行提取数据时,把item给传递下去。一般设置下一个链接,处理函数指定和要传递的item。yield scrapy.Request( item["href"], callback=self.parse_detail, meta={"item": item...原创 2019-07-19 13:31:42 · 107 阅读 · 0 评论 -
Scrapy框架学习笔记(1)
创建项目scrapy startproject dir创建一个名叫dir的文件夹生成爬虫scrapy genspider a b创建一个域名范围为b的爬虫a运行爬虫scrapy crawl a运行名为a的爬虫allowed_domains设置爬虫允许爬取的范围start_urls设置起始爬取的地址parse解析网页的方法Item Pipeline如果要启用It...原创 2019-07-17 19:04:27 · 214 阅读 · 0 评论 -
python-GlidedSky爬虫闯关第二关
第二关跟第一关一样求数字总和,不过这次分为了1000页的数字,一开始想着继续用selenium来进行爬取,然后发现在爬取的途中,浏览器可能会没响应到,数据会丢失一部分,后来就改用requests来爬取selenium代码:from selenium import webdrivername = ''pwd = ''url = 'http://glidedsky.com/level/web...原创 2019-05-11 19:11:31 · 685 阅读 · 0 评论 -
python-GlidedSky爬虫闯关第一关
最近都在使用selenium就先使用着selenium来进行爬取from selenium import webdrivername = ''pwd = ''num = []x=1s = 0test = []b = webdriver.Chrome()b.get('http://glidedsky.com/level/web/crawler-basic-1')user ...原创 2019-05-11 16:20:14 · 1581 阅读 · 0 评论 -
python-JS优学网课挂学时脚本
老师要求每挂满150分钟的课程,然后就想着写一个脚本来挂学时,使用了selenium来模拟浏览器行为来写的一个挂网课脚本。from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitimport timeuname = ''paswd = ''def open_brower...原创 2021-01-21 17:28:35 · 4737 阅读 · 1 评论 -
python爬取猫眼top100
用Xpath和requests爬取猫眼上的top100电影,爬取豆瓣top250也可以用相同的方法import requestsfrom lxml import etreedef url_open(url): header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, l...原创 2019-05-06 13:20:30 · 274 阅读 · 1 评论 -
python使用正则以及BS4爬取图片
使用正则以及BS4爬取图片使用了requests库,正则表达式以及BS4来进行的一个爬虫,用了easygui进行一个简单的图形界面import requestsimport osimport refrom bs4 import BeautifulSoupimport easygui as gdef url_open(url):header = {‘User-Agent’:‘Mozi...原创 2019-04-27 09:42:19 · 573 阅读 · 0 评论 -
python-经世优学挂学时脚本2.0
2.0脚本由于之前的脚本已经不能使用了,所以更新一下。此次依然使用了selenium作为框架。增加了挂学时的时长以及课程的配置。登录经世优学的网站进行了更新,其实就是多加了一步点击登录,影响不大,后续网站更新也有可能使用iframe进行登录页面的设计,使用iframe的话,使用selenium的switch_to.frame即可解决。开始挂学时登录完成后页面会进行跳转,随后进入学习空...原创 2020-01-01 11:28:20 · 2811 阅读 · 1 评论 -
python-GlidedSky字体反爬虫
题目字符到图片映射都是反爬都可以当作反爬的措施,题目要求看到的数据而不是网页源码的数据。分析1、网页中混淆了多种字体,每次刷新源码的数据都有变化。2、把font-face中的base64数据进行解码并保存到本地中,把头部的charset以及base64去掉,使用base64库进行解码保存为ttf文件。3、使用FontCreator进行查看,可以看到其中对应的关系。4、进行多次刷新...原创 2019-10-22 23:37:05 · 666 阅读 · 2 评论 -
python-GlidedSky-CSS反爬虫
题目通过更改CSS样式来使内容达到预期需要的效果。分析1、CSS混淆主要有三种,一种是单纯用一个before覆盖内容,一种是4个div来进行位置的混淆,一种是before加div混淆2、获取到div的items进行长度的判断,如果长度小于3的则正则匹配拿到content里的正确数据,长度等于4的,把透明度为0的去掉,根据元素的左右长度进行位置的判断,拿到正确的数据最后就规模进行爬取即可...原创 2019-11-03 21:49:59 · 395 阅读 · 0 评论 -
python-GlidedSky-验证码反爬虫
题目通过验证码来识别人机。分析1、点进去待爬取网站,弹出一个滑动验证码的验证,通过验证后,数据才呈现出来2、使用的是一个腾讯的验证,selenium截图对元素裁剪得不到想要的结果,保存屏幕截图后使用PS进行验证码位置的判定后使用PIL进行图片的截取即可,也可以获取到验证码图片的链接进行保存3、获取链接保存时图片的大小约为网站的2倍,需要resize一下4、获取链接时注意切换ifram...原创 2019-11-03 22:07:59 · 784 阅读 · 1 评论