阴凉、避光、通风-优快云博客

原创爬取并保存图片资源(xpath方法)

本文介绍了网页图片爬取的原理和实现方法。主要内容包括：1. 爬取原理分析，通过构造图片URL实现图片获取；2. 定义通用函数获取HTML文本和图片二进制数据；3. 构建列表页和详情页URL；4. 使用正则表达式匹配图片URL后缀；5. 图片保存方法；6. 主程序整合各功能模块。文章详细讲解了如何通过多级请求获取高清图片，并提供了完整的Python代码实现框架，包括请求处理、URL构造、数据解析和存储等关键步骤。该方法适用于需要从网页获取高清图片资源的场景。

2025-12-20 16:12:46 992

原创详情页的爬取(正则)

本文介绍了一个爬取书籍网站数据的Python爬虫程序。程序采用模块化设计，主要包含以下功能：1)通过toscrape_api函数获取网页HTML；2)使用toscrape_index函数构建列表页URL；3)通过正则表达式提取详情页链接；4)获取详情页内容并解析书名、价格、库存等信息；5)将结果保存为CSV文件。程序采用生成器优化性能，包含反爬机制，并通过主函数main()协调各功能模块。最终实现了从https://books.toscrape.com网站自动抓取前两页书籍数据的功能。

2025-12-14 23:13:54 744

原创爬取某网站的小说名(pyquery)

本文展示了使用pyquery库爬取小说网站的基本流程：1)通过for循环发送前5页请求并设置请求头伪装；2)验证响应状态码200后解析HTML；3)使用CSS选择器定位小说名称元素；4)将结果转为可迭代对象遍历获取文本内容。整个过程简洁明了，完整演示了从请求发送到数据提取的爬虫核心步骤。

2025-12-12 20:55:32 437

原创利用CSS选择器爬取书籍的名称、价格和评级

展示代码，代码比较简单，可以不用定义函数和主程序，直接写就行发送请求，获得响应，得到网页文本，定位目标位置(用CSS选择器)，获取信息，打印信息。这就是这种简单网页的爬取流程。

2025-12-09 22:11:04 1031

原创爬取百度热搜小说名、作者、类型、热搜指数(正则表达式)

本文介绍了使用Python爬取百度小说热搜榜的简单方法。通过requests库发送HTTP请求，伪装浏览器头信息获取响应，使用正则表达式解析HTML文本内容。重点讲解了如何用re.compile()构建匹配模式，通过分组命名捕获小说名称、作者、类型和热度等信息，并使用re.sub()清理HTML标签。最后展示了格式化输出结果的代码。该方法虽简陋但适合初学者理解网络爬虫的基本流程，包括请求发送、响应处理、内容解析和数据提取等关键步骤。

2025-12-07 14:06:26 924

原创爬取百度热搜小说名、作者、类型(xpath)

文章介绍了使用Python爬取百度小说排行榜的基本流程：1)通过requests.get()发送请求并设置User-Agent伪装头；2)使用etree.HTML解析网页；3)通过xpath定位目标元素，其中小说名直接获取，作者和类型因标签相同需用双层循环处理；4)用text()方法提取内容。文中强调xpath定位需借助浏览器开发者工具(F12)，并建议初学者先掌握一种解析方法。

2025-12-06 19:34:33 833

原创爬取豆瓣电影Top250

本文介绍了使用Python爬取豆瓣电影Top250数据的方法。主要内容包括：1)准备工作，导入requests、BeautifulSoup和pandas库；2)构建爬虫主体，发送请求并解析网页；3)提取和处理电影数据，包括标题、排名、导演演员等信息；4)将数据存储为CSV文件。文章强调了解析网页和处理数据的关键步骤，并提供了伪装请求头的示例。整个流程通过循环遍历所有页面完成数据采集，最后保存为结构化数据文件。

2025-11-22 22:54:52 981

原创爬取百度热搜电影名、热度、演员以及电影类型

本文介绍了爬取百度电影榜单的简单爬虫实现思路：1）通过requests访问目标网址，使用headers伪装浏览器请求；2）用BeautifulSoup解析返回的HTML内容；3）通过find_all定位电影条目，再逐一提取每部电影的标题、演员等信息；4）将数据存入字典列表后，用pandas导出为CSV文件。文章用通俗比喻解释了爬虫原理，包括请求伪装、内容解析和数据定位等关键步骤，最终实现将网页数据转为结构化表格存储。

2025-11-21 18:12:21 524 1

qq_49826430的博客