- 博客(6)
- 收藏
- 关注
原创 Scrapy 电影天堂
数据总数应为157*25+10=3935,但实际情况有出入,只有3934条数据,经过检查,发现有一部电影的二级页面失效,无法正常访问,导致数据丢失,这个异常并未在代码中处理,所有数据总数和实际数据数量回有误差。另有些电影的二级页面能够访问,但是没有海报的数据,所以csv中会存在None,电影名称也会有存在None,甚至名称和海报都为None,目前还未排查出,有待优化。目标数据:电影名称,每部电影的海报(海报在二级页面,通过点击电影名称跳转)跳转二级页面,通过xpath提取图片。
2023-07-07 17:38:53
851
2
原创 爬虫——Scrapy框架 (初步学习+简单案例)
定义了爬取结果的数据结构,爬取的结果会被赋值成Item对象,每个Item都是一个类,类里面定义了爬取结果的数据字段,可以理解为用来规定数据的存储格式。5. Downloader(下载器):负责下载Engine发送的所有请求,将获取的Response返回给Engine,再发给Spiders处理。1. Engine(引擎):用来处理整个系统的数据流和时间,是整个框架的核心,可以理解为中央处理器,负责数据的流转和逻辑的处理。steam 用户创建的文件,定义爬取的url以及对数据的处理。
2023-06-09 18:56:06
2003
原创 selenium获取ticket.yes24.com信息
2.进入url定义的网页中,利用selenium自动化测试和Xpath元素定位进行日期、场次,预定操作,并在网页弹窗提示下进行登录,再次确认以上信息,进入购票窗口。3.此时进入一个新的窗口,需要通过句柄来切换窗口。(网页源代码中并无iframe标签,无法通过切换iframe来进行切换)1.定义用户名,密码(自行注册),设置页面加载策略,关闭selenium受控制chrome提示,确定需要访问的url。4.第三步已经完成了选座操作,接下来就要获取一些基本信息。
2023-05-22 17:15:57
3659
3
原创 基于JWT模拟登录爬取案例
基于JWT的网站通常采用前后端分离模式,数据的传输依赖于Ajax,登录验证依赖JWT的token认证。JWT经验证是有效的,服务器就返回相应的数据。首次访问网址,会跳转到登录界面,打开 开发者工具,点击Network,刷新页面,输入用户名和密码,点击登录,查看第二个login请求。2.在之后的请求当中,在headers中加上Authorization字段,通过token验证,如何爬取内容。,Payload中返回username和password,Preview返回了token的值。
2023-05-12 17:39:42
270
1
空空如也
Win10系统设置里的输入框无法输入
2023-05-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人