自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 爬虫日记、爬取b站视频-->文件存储及音视频合并

本文介绍了使用Python爬取B站番剧视频的方法。通过分析B站静态资源节点,发现视频资源存储在playurlSSRData字典中,需分别提取视频和音频链接。爬取过程需要携带cookie,并使用正则表达式提取数据。由于B站的视频和音频是分离的,需要分别下载后用FFmpeg合并。文章详细说明了请求发送、数据提取、文件存储及音视频合并的完整流程,并提供了完整的Python代码实现,包括使用subprocess调用FFmpeg进行音视频合成的关键步骤。

2025-11-20 22:17:01 853

原创 Scrapy框架的梳理

5、Download向互联网发送请求得到Response并把Response返回给Engine----->7、Spiders解析Respose,提取Items或者新的Requests ----->6、Engine将Response返回给Spiders---->4、Engine将请求交给Downloader----->3、Engine从Schedule获取请求---->1、Spiders发起requests---->2、Schedule对请求进行调度---->

2025-11-17 20:55:16 192 1

原创 爬虫日记、使用OCR识别突破验证码登录-->爬取网上车市个人主页内容

本文介绍了使用Selenium和OCR技术爬取网上车市个人用户页面的完整流程。首先通过Selenium访问登录界面获取图形验证码,利用百度智能云OCR服务识别验证码后完成自动登录。文章详细说明了验证码处理机制、cookie获取与保存方法,以及如何使用requests库携带cookie访问个人主页。该爬虫实现了绕过验证码限制、保持登录状态等功能,最终成功获取个人用户信息并保存为HTML文件。整个过程涵盖了Selenium操作、OCR验证码识别、session管理和cookie处理等关键技术点。

2025-11-15 22:45:03 941

原创 爬虫日记、优美图库-->突破403拒绝访问爬取图片

摘要:本文介绍了使用requests、BeautifulSoup和fake_useragent爬取优美图库网站图片的过程。通过分析发现图片链接403拒绝访问问题,原因是请求头缺少正确的referer参数。解决方法是将图片分类信息(如fengjing/jianzhu/dongwu)拼接到网站域名作为referer,成功下载图片。最终实现了对风景、动物、建筑三大类图片的有效爬取,并提供了完整代码实现方案。

2025-11-12 21:00:58 523

原创 爬虫日记、名言网

摘要:本文介绍了一个基于Python的名言网爬虫实现。使用requests、xpath和fake-useragent库,该爬虫能够自动爬取静态网页中的名人名言文本信息。通过分析网页结构,定位特定div节点提取内容,并实现分页爬取功能。代码包含请求处理、xpath解析、数据清洗和存储等完整流程,设置爬取10页内容后可获得数万条名言数据。关键点包括使用随机User-Agent、UTF-8编码处理和自动跟踪下一页链接。最终结果保存为TXT文件,实现了一个简单高效的名言采集工具。

2025-11-10 20:26:57 734

原创 爬虫日记、多年天气数据的动态Ajax爬取-->保存

本文介绍了一个爬取佛山南海区历史天气数据的Python爬虫项目。通过分析2345天气预报网站的动态加载机制,采用XHR接口请求配合反爬措施(UA池、请求头设置)获取数据。项目使用requests库发送请求,通过正则表达式从JSON响应中提取日期、天气、风速、温度等信息,并利用pandas将数据存入CSV文件。爬虫实现了从2022年1月至2025年10月的按月数据抓取功能,有效突破了动态网页的数据获取难点。该方案为爬取动态网页数据提供了可复用的技术思路,包含接口分析、反爬策略和数据处理全流程。

2025-11-09 20:37:54 818 2

原创 爬虫日记、电影天堂爬取

本文介绍了使用Python爬取电影天堂网站国内电影信息的实现过程。通过requests库获取网页内容,利用正则表达式匹配提取所需数据。重点包括:1)设置gb2312编码解决中文乱码;2)从列表页提取详情页链接;3)从详情页正则匹配译名、片名、类别等关键信息;4)自动翻页功能实现批量爬取。代码展示了完整的爬虫实现,包括请求头设置、URL拼接、数据提取和分页处理逻辑。该方案针对特定网站结构化数据实现了高效爬取,为类似网站的爬虫开发提供了参考。

2025-11-07 21:35:21 955

原创 爬虫学习日记、豆瓣top250爬取

本文介绍了一个爬取豆瓣电影Top250的Python爬虫程序。使用requests库获取网页内容,通过lxml的etree.HTML和xpath解析提取电影名称、导演、地区、简语等信息。程序实现了自动翻页功能,处理了换行符和特殊字符的清洗问题,并将最终数据存储为CSV文件。关键技术包括xpath定位、多页处理和文本清洗,完整代码展示了从数据获取到存储的完整流程。

2025-11-06 20:47:26 158

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除