Python爬虫：数据提取与处理技巧-优快云博客

本文介绍了爬虫中数据提取的流程，包括数据分类、抓包、JSON处理、正则表达式和XPath使用。重点讲解了JSON数据与Python数据类型之间的转换，正则表达式的常见方法，以及XPath在HTML和XML文档中的应用。同时，文章提醒了在使用lxml库时需要注意的细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据提取

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成，适用于进行数据交互的场景，比如网页前端与后端之间的数据交互。

json字符串
- json字符串使用loads()转换成python数据类型
- python数据类型使用dumps()转换成json字符串
包含json的类文件对象
- json类文件对象使用load()转换成python数据类型
- python数据类型使用dump()转换成json类文件对象
- 注：具有read()或者write()方法的对象就是类文件对象，即fp

json的字符串都是使用双引号的
- 如果不是双引号的话
  - eval：能实现简单的字符串和python类型的转换
  - replace：把单引号替换成双引号
往一个文件中写入多个json串，不再是一个json串，不能直接读取
- 一行写一个json串，按照行来读取

使用xpath helper或者是chrome中的copy xpath都是从element中提取的数据，但是爬虫获取的是url对应的响应，往往和element不一样
获取文本
- a/text() 获取a标签下的文本
- a//text() 获取a标签下的所有文本
- //a[text()='下一页'] 选个文本为下一页的a标签
@符号
- a/@href 获取a标签的href属性
- //ul[@id='xxx'] 获取id=xxx的ul的节点
//
- 在xpath开始的时候表示从当前html中任意位置开始选择
- li//a 表示的是在li标签下的所有a标签

路径表达式：描述
/bookstore/book[1]:选取属于bookstore子元素的第一个book元素
/bookstore/boo[last()]：选取属于bookstore子元素的最后一个book元素
/bookstore/book[last()-1]:选取属于bookstore子元素的倒数第二个元素
/bookstore/book[position()❤️]：选取最前面的两个属于bookstore元素的子元素的book元素
//title[@lang]：选取所有拥有名为lang的属性的title元素
//title[@lang=‘eng’]：选取所有title元素，且这些元素拥有值为eng的lang属性
/bookstore/book[price>35.00]：选取bookstore元素的所有book元素，且其中的price元素的值大于35.00
/bookstore/book[price>35.00]/title：选取bookstore元素中的book元素的所有title元素，且其中的price元素的值大于35.00
- ：匹配任何元素节点
@* ：匹配任何属性节点
node（）：匹配任何类型的节点
/bookstore/* :选取bookstore元素下的所有子元素
//* ：选取文档中的所有元素
html/node()/meta/@*：选择html下面任意节点的meta节点的所有属性
//title[@*]：选取所有带属性的title元素
//book/title|//book/price：选取book元素的所有title和price元素
//title|//price：选取文档中的所有title和price元素