自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 爬取并保存图片资源(xpath方法)

本文介绍了网页图片爬取的原理和实现方法。主要内容包括:1. 爬取原理分析,通过构造图片URL实现图片获取;2. 定义通用函数获取HTML文本和图片二进制数据;3. 构建列表页和详情页URL;4. 使用正则表达式匹配图片URL后缀;5. 图片保存方法;6. 主程序整合各功能模块。文章详细讲解了如何通过多级请求获取高清图片,并提供了完整的Python代码实现框架,包括请求处理、URL构造、数据解析和存储等关键步骤。该方法适用于需要从网页获取高清图片资源的场景。

2025-12-20 16:12:46 992

原创 详情页的爬取(正则)

本文介绍了一个爬取书籍网站数据的Python爬虫程序。程序采用模块化设计,主要包含以下功能:1)通过toscrape_api函数获取网页HTML;2)使用toscrape_index函数构建列表页URL;3)通过正则表达式提取详情页链接;4)获取详情页内容并解析书名、价格、库存等信息;5)将结果保存为CSV文件。程序采用生成器优化性能,包含反爬机制,并通过主函数main()协调各功能模块。最终实现了从https://books.toscrape.com网站自动抓取前两页书籍数据的功能。

2025-12-14 23:13:54 744

原创 爬取某网站的小说名(pyquery)

本文展示了使用pyquery库爬取小说网站的基本流程:1)通过for循环发送前5页请求并设置请求头伪装;2)验证响应状态码200后解析HTML;3)使用CSS选择器定位小说名称元素;4)将结果转为可迭代对象遍历获取文本内容。整个过程简洁明了,完整演示了从请求发送到数据提取的爬虫核心步骤。

2025-12-12 20:55:32 437

原创 利用CSS选择器爬取书籍的名称、价格和评级

展示代码,代码比较简单,可以不用定义函数和主程序,直接写就行发送请求,获得响应,得到网页文本,定位目标位置(用CSS选择器),获取信息,打印信息。这就是这种简单网页的爬取流程。

2025-12-09 22:11:04 1031

原创 爬取百度热搜小说名、作者、类型、热搜指数(正则表达式)

本文介绍了使用Python爬取百度小说热搜榜的简单方法。通过requests库发送HTTP请求,伪装浏览器头信息获取响应,使用正则表达式解析HTML文本内容。重点讲解了如何用re.compile()构建匹配模式,通过分组命名捕获小说名称、作者、类型和热度等信息,并使用re.sub()清理HTML标签。最后展示了格式化输出结果的代码。该方法虽简陋但适合初学者理解网络爬虫的基本流程,包括请求发送、响应处理、内容解析和数据提取等关键步骤。

2025-12-07 14:06:26 924

原创 爬取百度热搜小说名、作者、类型(xpath)

文章介绍了使用Python爬取百度小说排行榜的基本流程:1)通过requests.get()发送请求并设置User-Agent伪装头;2)使用etree.HTML解析网页;3)通过xpath定位目标元素,其中小说名直接获取,作者和类型因标签相同需用双层循环处理;4)用text()方法提取内容。文中强调xpath定位需借助浏览器开发者工具(F12),并建议初学者先掌握一种解析方法。

2025-12-06 19:34:33 833

原创 爬取豆瓣电影Top250

本文介绍了使用Python爬取豆瓣电影Top250数据的方法。主要内容包括:1)准备工作,导入requests、BeautifulSoup和pandas库;2)构建爬虫主体,发送请求并解析网页;3)提取和处理电影数据,包括标题、排名、导演演员等信息;4)将数据存储为CSV文件。文章强调了解析网页和处理数据的关键步骤,并提供了伪装请求头的示例。整个流程通过循环遍历所有页面完成数据采集,最后保存为结构化数据文件。

2025-11-22 22:54:52 981

原创 爬取百度热搜电影名、热度、演员以及电影类型

本文介绍了爬取百度电影榜单的简单爬虫实现思路:1)通过requests访问目标网址,使用headers伪装浏览器请求;2)用BeautifulSoup解析返回的HTML内容;3)通过find_all定位电影条目,再逐一提取每部电影的标题、演员等信息;4)将数据存入字典列表后,用pandas导出为CSV文件。文章用通俗比喻解释了爬虫原理,包括请求伪装、内容解析和数据定位等关键步骤,最终实现将网页数据转为结构化表格存储。

2025-11-21 18:12:21 524 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除