自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 多线程爬虫----批量下载小说,实现小说自由

也许在这里看不出爬取的速度,大家可以自己复制代码实验一下,它与单线程相比速度以及大大提升了,这里理解之后就方便实现多本小说的爬取了。在上一个案例中实现了单线程爬取整本小说,这里给大家展示一下多线程爬取下载小说,可以大大提升下载速度,主要代码修改也简单。1.get_response这个函数作用是发送请求获取响应,这里的html_url参数会被调用的那个函数传入。2.get_url_list函数---先调用.get_response获取响应再提取响应里的章节链接列表。

2025-03-16 00:25:36 426

原创 单线程爬虫--实现小说自由,在不怕小说找不到

这里只是一个单线程的案列,后面会发一个多线程的案列----小说下载器的制作。

2025-03-15 13:41:37 1836

原创 python爬虫乱码和返回304解决方法

304 Not Modified 表示客户端发送了一个带有条件的 GET 请求(例如包含 `If-Modified-Since` 或 `If-None-Match` 头部信息),服务器检查后发现资源自上次请求以来未发生变化。- 缓存机制:浏览器或客户端通常会在本地缓存资源,并在后续请求中通过 `If-Modified-Since` 或 `If-None-Match` 头部信息告知服务器资源的最后修改时间或ETag值。这里主要说返回值全是乱码的问题,如果出现这种情况全是乱码的样子,就很可能是压缩的问题。

2025-03-12 06:09:04 825

原创 Scrapy爬虫框架使用---来看看富豪排行都有谁

准备工作做好了之后就开始使用他们。先到items.py中进行数据建模,也就是列如这样,将爬虫代码的字段名以 字段名= scrapy.Field() 的方式写到items.py的类里面就可以了。在此就可以使用它了。首先pip install openpyxl安装这个之后就可以存储到Excel表里面了,这里大家可以直接复制改代码就可以了,最后使用的时候记得将settings.py中的管道名称统一一下就OK了。- 流行度:在开源爬虫框架中,Scrapy 是最受欢迎的之一,拥有庞大的社区和丰富的文档。

2025-02-27 16:44:06 633

原创 X音视频评论采集DrissionPage案例

这里使用的还是DrissionPage,首先监听评论数据包,等待他加载,然后点击评论按钮显示评论信息,由于评论信息一次加载的数量有限,不会将所有评论一次性加载出来,我们就需要做循环和下拉操作,循环遍历这部分大家看代码就可以知道,都是python的基础语法,主要是下拉操作。解决:当我们手动下拉评论加载的时候会多出一个加载的div,当加载后又会出现到下一部分要加载的数据底部,所以我就直接定位这个div元素就可以实现下拉加载了。主要使用自动化脚本来采集视频评论数据,主要的便是定位和下拉加载评论信息的方法。

2025-02-26 11:30:24 135

原创 网易招聘岗位爬虫案例

不过翻页操作可以说一下,到翻页是可以知道 json_data 中的 'currentPage'的值会增加,所以我这里就直接对 'currentPage'进行操作,让他的是每次请求后+1,这样就可以实现翻页功能了。heards中含有x-ehr-uuid这个参数,它是变化的,我就直接用一个简单的js逆向再本地生成一个,然后赋值给x-ehr-uuid,不过好像这个参数不影响请求的发送,但是熟能生巧再可以逆向的地方多做一下,提升自己的逆向熟练度也是好事。

2025-02-26 11:14:48 152

原创 b站弹幕数据采集及数据处理

数据处理:在这里我们使用 词云图的方式来处理弹幕,首先还是用pandas读取数据文件,在使用jieba库来分词,最后使用wordcloud来制作图片,代码实现较短,较简单大家可以直接copy使用,首先确定数据接口的位置,获取数据接口链接,发送请求,解析响应,保存数据。数据展示:由于当时写的时候是在晚上,太晚了没多少弹幕。想要改变图片形状的朋友要自己找透明的背景图来修改。

2025-02-26 10:59:35 179

原创 京东商品数据采集DrissionPage自动化脚本

然后使用DrissionPage 打开目标网页,xpath定位到搜索元素,输入要获取的数据名称,点击搜索。DrissionPage不用担心被浏览器检测,简单便捷的操作可以实现数据的搜索、爬取、翻页。首先创建一个py文件,运行改代码,将路径切换为自己本地的浏览器路径。设置等待时间,最后解析数据。

2025-02-26 10:50:38 33855

原创 boos岗位数据爬虫自动化采集DrissionPage以及可视化

使用DrissionPage实现boos岗位的自动化采集,首先确定目标数据是静态数据还是动态数据,如果是动态数据的话,就需要定位到目标数据接口,在这里可以使用DrissionPage的监听功能来找到目标数据包。当数据包加载之后就可以进行数据的解析了,解析之后可以使用下拉操作下拉到底部,并确定翻页按钮。数据可视化:用pandas 读取爬取的数据,导入pyecharts 再使用pyecharts 的饼图用于数据可视化展示。数据展示:这里的数据只用于验证项目成果,所以我就爬取了一,两页的数据来展示。

2025-02-26 10:40:09 2136

原创 爬虫进阶JS逆向实战-----淘宝

因为我们向淘宝的数据接口发送请求的时候它会验证请求里面的一个sign参数而且这个参数是变化的,只有当这个参数验证通过之后才能请求获得数据。搜索之后就要进行断点分析了,正常来说要进行多个断点来确定加密参数位置,不过淘宝的这个我做的时候就是第一个,点击第一个进入js文件页面。进去之后就在sign的位置断点,再到淘宝页面中点击下一页刷新一下数据就可以看到sign加密参数的生成位置了。主要的代码是这个c函数的js代码,可以将鼠标放到c上面获得js代码位置,再将所需的代码复制到编程工具中。(2)确定加密参数位置。

2025-02-20 14:39:40 907

原创 django管理系统模板(此文章的基础教程可以应对大部分管理系统)

功能齐全的django项目,可以根据自己的需求选择功能,并拼接成一个完成的管理系统,功能包括:登录、md5加密、图形验证码、数据上传、对数据的增删查改、中间件、数据可视化、Ajax请求、js等等

2025-02-20 13:45:49 348

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除