文章目录
Tips
network==>request headers
xpath用法:
- 使用场景:html标签页面中解析提取数据
- xpath的节点关系
- html里面的每个标签都叫节点:根节点、子节点、同级节点
- 语法
/
从根节点开始取(html 标签)//
跨节点取标签..
选取当前节点的父节点;.
选取当前节点@
选取标签的属性值text()
选取文本
- \xpath语法获取
img标签
: /html/div/div/a/img
1.直接网页copt xpath得到://*[@id="div-comment-10133"]/p/img
# id独立用来定位
2.//*
跨标签[@id="..."]
精确定位
<html>
<div>
<div>
<a>
<img>http:"aaaaa"<img>
</a>
<div>
<div>
<div>
</div>
<div>
</html>
- xpath语法用到的模块lxml 帮助我们解析 html,xml
from lxml import etree
html = etree.HTML(response.content.decode("utf-8"))
#【使用xpath进行解析数据(不可以解析字符串类型)】- 解析数据的方法:xpath(节点截取数据); bs4(需学html);pyquery;正则表达式;
爬虫基本步骤
1.导入相关的模块
import requests
from lxml import etree
2.发送网络请求获取数据
2.1确定爬取网站(url)
base_url = "https://www.mzitu.com/jiepai/"
2.2 防止反爬(构建请求头)
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36", }
2.3发送请求
response响应体 (想要的数据,响应头)=>拆分响应对象=>拿到数据(二进制->解码)
response = requests.get(url=base_url,headers=headers)
# 请求==>response
html = response.content.decode("utf-8")
# 字符串类型
3.分析网页架构(找到需要的数据)(解析数据)
3.1 转换成可以解析的类型
html = etree.HTML(response.content.decode("utf-8"))
url_list = html.xpath('//*[@id ="comments"]/ul/li')
# 列表包含多个li,每个li包含图片:li标签下面的/div/…/p/img
3.2 需求获取li(p/img(src))
num = 0
for li in url_list:
num += 1
- #print(li) # li是xpath能解析的类型
- #二次解析(获取真正我们需要的图片)
- #./当前下面的/div标签/…/@属性data-original
img_url = li.xpath("./div/p/img/@data-original")[0]
# 列表=》元素:[0]- #png一般是反爬,jpg才对
- #4.保存到本地
- #发送请求下载图片
img_response = requests.get(url=img_url,headers=headers)
- #保存本地(给下载的图片起名字)
with open("./results/{}.jpg".format(num),"wb") as f:
#图片以二进制的方式写入更好f.write(img_response.content)
# img_response是对象,所以要获取内容
- #4.保存到本地