介绍:
Requsts库,里面是一个用来模拟发送HTTP请求的第三方Python 库。常用来做爬虫或接口测试,相对于urllib 等系统库,requests具有简洁方便和高效等特点。
而Requests-HTML 对PyQuery、Requests、lxml、beautifulsoup4等库进行了二次封装,添加了解析 HTML 的接口,是一个 Python 的 HTML 解析库。
GiHub项目地址:
https://github.com/kennethreitz/requests-html
中文文档:
https://cncert.github.io/requests-html-doc-cn/#/
学习
预备知识
- Python 基础,了解第三方库的安装与导入,基础代码逻辑
- HTML 基础,了解前端网页各标签及其含义
安装
pip install requests-html
元素定位
对美桌网进行爬取图片
首先打开美桌网,使用F12或者鼠标右键查看源代码及元素属性。
我们要对该页面展示的图片进行爬取,那么需要对元素进行定位:
进行分析,发现所有的图片都是使用<li> </li>
标签展示的,而 <li></li>
标签的父节点 <ul class="clearfix">
是当前页面唯一属性,那么可以使用Xpath进行定位
xpath(