- 博客(8)
- 收藏
- 关注
原创 爬取并保存图片资源(xpath方法)
本文介绍了网页图片爬取的原理和实现方法。主要内容包括:1. 爬取原理分析,通过构造图片URL实现图片获取;2. 定义通用函数获取HTML文本和图片二进制数据;3. 构建列表页和详情页URL;4. 使用正则表达式匹配图片URL后缀;5. 图片保存方法;6. 主程序整合各功能模块。文章详细讲解了如何通过多级请求获取高清图片,并提供了完整的Python代码实现框架,包括请求处理、URL构造、数据解析和存储等关键步骤。该方法适用于需要从网页获取高清图片资源的场景。
2025-12-20 16:12:46
992
原创 详情页的爬取(正则)
本文介绍了一个爬取书籍网站数据的Python爬虫程序。程序采用模块化设计,主要包含以下功能:1)通过toscrape_api函数获取网页HTML;2)使用toscrape_index函数构建列表页URL;3)通过正则表达式提取详情页链接;4)获取详情页内容并解析书名、价格、库存等信息;5)将结果保存为CSV文件。程序采用生成器优化性能,包含反爬机制,并通过主函数main()协调各功能模块。最终实现了从https://books.toscrape.com网站自动抓取前两页书籍数据的功能。
2025-12-14 23:13:54
744
原创 爬取某网站的小说名(pyquery)
本文展示了使用pyquery库爬取小说网站的基本流程:1)通过for循环发送前5页请求并设置请求头伪装;2)验证响应状态码200后解析HTML;3)使用CSS选择器定位小说名称元素;4)将结果转为可迭代对象遍历获取文本内容。整个过程简洁明了,完整演示了从请求发送到数据提取的爬虫核心步骤。
2025-12-12 20:55:32
437
原创 利用CSS选择器爬取书籍的名称、价格和评级
展示代码,代码比较简单,可以不用定义函数和主程序,直接写就行发送请求,获得响应,得到网页文本,定位目标位置(用CSS选择器),获取信息,打印信息。这就是这种简单网页的爬取流程。
2025-12-09 22:11:04
1031
原创 爬取百度热搜小说名、作者、类型、热搜指数(正则表达式)
本文介绍了使用Python爬取百度小说热搜榜的简单方法。通过requests库发送HTTP请求,伪装浏览器头信息获取响应,使用正则表达式解析HTML文本内容。重点讲解了如何用re.compile()构建匹配模式,通过分组命名捕获小说名称、作者、类型和热度等信息,并使用re.sub()清理HTML标签。最后展示了格式化输出结果的代码。该方法虽简陋但适合初学者理解网络爬虫的基本流程,包括请求发送、响应处理、内容解析和数据提取等关键步骤。
2025-12-07 14:06:26
924
原创 爬取百度热搜小说名、作者、类型(xpath)
文章介绍了使用Python爬取百度小说排行榜的基本流程:1)通过requests.get()发送请求并设置User-Agent伪装头;2)使用etree.HTML解析网页;3)通过xpath定位目标元素,其中小说名直接获取,作者和类型因标签相同需用双层循环处理;4)用text()方法提取内容。文中强调xpath定位需借助浏览器开发者工具(F12),并建议初学者先掌握一种解析方法。
2025-12-06 19:34:33
833
原创 爬取豆瓣电影Top250
本文介绍了使用Python爬取豆瓣电影Top250数据的方法。主要内容包括:1)准备工作,导入requests、BeautifulSoup和pandas库;2)构建爬虫主体,发送请求并解析网页;3)提取和处理电影数据,包括标题、排名、导演演员等信息;4)将数据存储为CSV文件。文章强调了解析网页和处理数据的关键步骤,并提供了伪装请求头的示例。整个流程通过循环遍历所有页面完成数据采集,最后保存为结构化数据文件。
2025-11-22 22:54:52
981
原创 爬取百度热搜电影名、热度、演员以及电影类型
本文介绍了爬取百度电影榜单的简单爬虫实现思路:1)通过requests访问目标网址,使用headers伪装浏览器请求;2)用BeautifulSoup解析返回的HTML内容;3)通过find_all定位电影条目,再逐一提取每部电影的标题、演员等信息;4)将数据存入字典列表后,用pandas导出为CSV文件。文章用通俗比喻解释了爬虫原理,包括请求伪装、内容解析和数据定位等关键步骤,最终实现将网页数据转为结构化表格存储。
2025-11-21 18:12:21
524
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅