网络爬虫
文章平均质量分 73
dxw-1997
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python调用Js脚本方法
可以发现前端使用了加密函数,如果能找到Pthon实现的这个加密函数,可以直接调用相关的API,或者有能力的自己实现这个加密函数。当我们进行网络爬虫的时候,遇到前端加密函数,而自己不想花费太多时间或者没法重写这个函数时,我们可以直接使用Python执行Js函数来解决这个问题。直接运行,发现报错!成功解决,以后遇到相似的问题,只需要将对应的Js代码复制过来,然后修改相应的参数就行!两种方法,在当前环境下载这个库,或者全局下载,然后再compile里面指定路径。全局下载,然后使用cmd参数指定文件的路径就行。原创 2023-11-01 16:01:35 · 495 阅读 · 0 评论 -
爬取掌上高考(招生计划)
分析发现,一次请求只能获取到10行数据,因此我们需要对其进行翻页处理,分析返回的数据携带数据的总条数,因此,我们可以根据这个总条数进行翻页处理,需要再次发送请求((可以修改size这个参数,减少请求次数,再提高效率的同时,做到反爬效果,但是仍需要动态的获取页数))可以再网上找一些免费的代理,但是一般免费的成功率都很低,而收费的都很贵,因此我们都不采用。其实,作者在这个项目中运用的原来就是到一些免费的代理网站采集 IP,然后测试 IP 的可用性,可用的就存入 Redis 中,不可用就丢弃。原创 2023-10-19 11:59:09 · 5000 阅读 · 4 评论 -
爬取深圳航空
通过分析发现,condition.constId这个参数是非必须参数,因此,我们可以直接置为空,尝试发现,仅仅通过请求参数是无法成功发起请求头的,我们还需要对请求头进行设置。简单一点来说那就是,你请求的是http格式,那就要使用http的协议,是https格式,就要使用https的协议。由于https的代理比较少,因此,我们需要从数据库手动挑选几个,然后进行随机访问,比如说这种,就是https类型的请求。设置好请求参数,准备好城市站点数据,或者请求我准备好的接口,以及动态生成航班日期。发现,成功发起请求!原创 2023-10-30 08:29:56 · 5277 阅读 · 0 评论 -
企业级爬虫小项目
爬取厦门航空原创 2023-10-18 08:52:11 · 1237 阅读 · 0 评论
分享