Python 使用requests-html 进行爬虫

本文介绍了如何使用Python的requests-html库进行网页爬虫。内容包括requests库的基础知识,requests-html的安装,通过Xpath元素定位爬取美桌网图片的步骤,以及requests-html解析HTML的核心功能。强调了在爬虫过程中遵循robots协议和处理反爬机制的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍:

Requsts库,里面是一个用来模拟发送HTTP请求的第三方Python 库。常用来做爬虫或接口测试,相对于urllib 等系统库,requests具有简洁方便和高效等特点。
而Requests-HTML 对PyQuery、Requests、lxml、beautifulsoup4等库进行了二次封装,添加了解析 HTML 的接口,是一个 Python 的 HTML 解析库。

GiHub项目地址:
https://github.com/kennethreitz/requests-html
中文文档:
https://cncert.github.io/requests-html-doc-cn/#/

学习

预备知识
  • Python 基础,了解第三方库的安装与导入,基础代码逻辑
  • HTML 基础,了解前端网页各标签及其含义
安装
	pip install requests-html
元素定位

美桌网进行爬取图片
首先打开美桌网,使用F12或者鼠标右键查看源代码及元素属性。
我们要对该页面展示的图片进行爬取,那么需要对元素进行定位:
爬取的图片及其源文件位置
所有的图片都在此唯一标签下
进行分析,发现所有的图片都是使用<li> </li>标签展示的,而 <li></li> 标签的父节点 <ul class="clearfix"> 是当前页面唯一属性,那么可以使用Xpath进行定位

	xpath(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值