李融彬-优快云博客

原创爬虫日记、爬取b站视频--＞文件存储及音视频合并

本文介绍了使用Python爬取B站番剧视频的方法。通过分析B站静态资源节点，发现视频资源存储在playurlSSRData字典中，需分别提取视频和音频链接。爬取过程需要携带cookie，并使用正则表达式提取数据。由于B站的视频和音频是分离的，需要分别下载后用FFmpeg合并。文章详细说明了请求发送、数据提取、文件存储及音视频合并的完整流程，并提供了完整的Python代码实现，包括使用subprocess调用FFmpeg进行音视频合成的关键步骤。

2025-11-20 22:17:01 853

原创 Scrapy框架的梳理

5、Download向互联网发送请求得到Response并把Response返回给Engine----->7、Spiders解析Respose，提取Items或者新的Requests ----->6、Engine将Response返回给Spiders---->4、Engine将请求交给Downloader----->3、Engine从Schedule获取请求---->1、Spiders发起requests---->2、Schedule对请求进行调度---->

2025-11-17 20:55:16 192 1

原创爬虫日记、使用OCR识别突破验证码登录--＞爬取网上车市个人主页内容

本文介绍了使用Selenium和OCR技术爬取网上车市个人用户页面的完整流程。首先通过Selenium访问登录界面获取图形验证码，利用百度智能云OCR服务识别验证码后完成自动登录。文章详细说明了验证码处理机制、cookie获取与保存方法，以及如何使用requests库携带cookie访问个人主页。该爬虫实现了绕过验证码限制、保持登录状态等功能，最终成功获取个人用户信息并保存为HTML文件。整个过程涵盖了Selenium操作、OCR验证码识别、session管理和cookie处理等关键技术点。

2025-11-15 22:45:03 941

原创爬虫日记、优美图库--＞突破403拒绝访问爬取图片

摘要：本文介绍了使用requests、BeautifulSoup和fake_useragent爬取优美图库网站图片的过程。通过分析发现图片链接403拒绝访问问题，原因是请求头缺少正确的referer参数。解决方法是将图片分类信息（如fengjing/jianzhu/dongwu）拼接到网站域名作为referer，成功下载图片。最终实现了对风景、动物、建筑三大类图片的有效爬取，并提供了完整代码实现方案。

2025-11-12 21:00:58 523

原创爬虫日记、名言网

摘要：本文介绍了一个基于Python的名言网爬虫实现。使用requests、xpath和fake-useragent库，该爬虫能够自动爬取静态网页中的名人名言文本信息。通过分析网页结构，定位特定div节点提取内容，并实现分页爬取功能。代码包含请求处理、xpath解析、数据清洗和存储等完整流程，设置爬取10页内容后可获得数万条名言数据。关键点包括使用随机User-Agent、UTF-8编码处理和自动跟踪下一页链接。最终结果保存为TXT文件，实现了一个简单高效的名言采集工具。

2025-11-10 20:26:57 734

原创爬虫日记、多年天气数据的动态Ajax爬取--＞保存

本文介绍了一个爬取佛山南海区历史天气数据的Python爬虫项目。通过分析2345天气预报网站的动态加载机制，采用XHR接口请求配合反爬措施（UA池、请求头设置）获取数据。项目使用requests库发送请求，通过正则表达式从JSON响应中提取日期、天气、风速、温度等信息，并利用pandas将数据存入CSV文件。爬虫实现了从2022年1月至2025年10月的按月数据抓取功能，有效突破了动态网页的数据获取难点。该方案为爬取动态网页数据提供了可复用的技术思路，包含接口分析、反爬策略和数据处理全流程。

2025-11-09 20:37:54 818 2

原创爬虫日记、电影天堂爬取

本文介绍了使用Python爬取电影天堂网站国内电影信息的实现过程。通过requests库获取网页内容，利用正则表达式匹配提取所需数据。重点包括：1)设置gb2312编码解决中文乱码；2)从列表页提取详情页链接；3)从详情页正则匹配译名、片名、类别等关键信息；4)自动翻页功能实现批量爬取。代码展示了完整的爬虫实现，包括请求头设置、URL拼接、数据提取和分页处理逻辑。该方案针对特定网站结构化数据实现了高效爬取，为类似网站的爬虫开发提供了参考。

2025-11-07 21:35:21 955

原创爬虫学习日记、豆瓣top250爬取

本文介绍了一个爬取豆瓣电影Top250的Python爬虫程序。使用requests库获取网页内容，通过lxml的etree.HTML和xpath解析提取电影名称、导演、地区、简语等信息。程序实现了自动翻页功能，处理了换行符和特殊字符的清洗问题，并将最终数据存储为CSV文件。关键技术包括xpath定位、多页处理和文本清洗，完整代码展示了从数据获取到存储的完整流程。

2025-11-06 20:47:26 158

slli123的博客