【爬虫】数据提取之xpath

最新推荐文章于 2025-06-30 21:49:14 发布

原创最新推荐文章于 2025-06-30 21:49:14 发布 · 773 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #大数据

本文介绍如何使用lxml库解析HTML文档，并运用XPath提取所需信息。涵盖了基本的标签、属性和文本选择技巧。

安装

pip install lxml

导包

from lxml import etree

使用

将html字符串转换为element对象

# 将html字符串 转换为element对象
from lxml import etree
element  = etree.HTML(html_str)

以下是通过element对象.xpath('匹配规则')来提取内容

获取标签

使用 / 表示根节点,路径和路径之间的过渡

/html/xx/xx/xxx

使用 // 跨节点选取,直接到想要的标签或者文本

//xxx   # 获取所有xxx标签

使用.

./ 当前节点

使用 ..

../  # 当前节点的上一级节点

.// 当不是完整的html时,使用 ,获取相对路径

获取属性

@属性名 获取当前标签这个属性对应的属性值

//img/@src   # 所有img 的scr属性

获取文本

/text() 获取标签里面的文本内容
//标签名[contains( text() , ' 文字 ' ) ] 获取包含文字的标签

//ol/li//span[contains(text(),'可播放')]

获取特定条件标签

//标签名[@属性名=值] 根据标签的属性值去定位具体的标签

//span[@class='title']   # 可以通过类名进行获取了

//标签名[索引] 索引从1开始

从前边获取
//上一级标签/标签名[position()>3] 从第4个开始

从后边获取
//上一级标签/标签名[last()] 获取最后一个
//上一级标签/标签名[last() - 2] 倒数第3个

结合
//ol/li[position()>1][position()<last()-2]

//标签名[text()='值'] 根据标签中具体的文本内容定位具体的标签,需要一字不差进行匹配

//ol/li//span[text()='[可播放]'] # 匹配标签内容是[可播放]的标签

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

语音不识别

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

xpath获取标签的属性值_Python爬虫：现学现用xpath爬取豆瓣音乐

weixin_39880490的博客

11-20

978

爬虫的抓取方式有好几种，正则表达式，Lxml(xpath)与BeautifulSoup,我在网上查了一下资料，了解到三者之间的使用难度与性能三种爬虫方式的对比。这样一比较我我选择了Lxml(xpath)的方式了，虽然有三种方式，但肯定是要选择最好的方式来爬虫，这个道理大家都懂，另外有兴趣的朋友也可以去了解另外两种爬虫方式！好了现在来讲讲xpath由于Xpath属于lxml模块，所以首先需要安装lx...

爬虫之XPath高级篇

实践求真知

01-12

960

一属性获取 1 点睛用@符号就可以 2 代码 from lxml import etree html = etree.parse('./test.html', etree.HTMLParser()) # 获取所有li节点下所有a节点的href属性 result = html.xpath('//li/a/@href') print(result) 3 结果 E:\WebSpid...

参与评论您还未登录，请先登录后发表或查看评论

Java爬虫—WebMagic

qq_52655865的博客

02-18

2018

WebMagic企业开发，比HttpClient和JSoup更方便WebMagic有DownLoad，PageProcessor，Schedule，Pipeline四大组件，并有Spider将他们组织起来，这四大组件对应就是爬虫的下载，处理，管理，持久化等功能。

解析库XPath【全】

Sevieryang/FinTech/Statistics/Quant

06-21

577

解析库对于网页的节点来说，它可以定义id、 class或其他属性。而且节点之间还有层次关系，在网页中可以通过XPath或CSS选择器来定位（或提取）一个或多个节点。然后再调用相应方法获取它的正文内容或者属性，就可以提取我们想要的信息。 [第四部分解析库的使用（XPath、Beautiful Soup、PyQuery][https://www.cnblogs.com/Micro0623/p/10496376.html] XPath 全称 XML Path Language，XML 路径语言最初是设计

xpath 第一个元素_XPath

weixin_39685130的博客

11-20

2699

定位元素方法1、绝对路径xpath表达式：/html/body/div/div从html代码最外层节点逐层查找2、相对路径xpath表达式：//input[@class='search-input']//表示在html文档的全部层级位置查找input[@class='search-input'] 定位class=search-input的输入框3、使用索引号//input[1]注意：查找时会把每个...

爬虫_数据提取值xpath和lxml模块学习

09-28

在这个“爬虫_数据提取值xpath和lxml模块学习”的主题中，我们将深入探讨如何利用Python的XPath和lxml库进行高效、精准的数据抓取。 XPath（XML Path Language）是一种在XML文档中查找信息的语言，它允许我们通过...

爬虫学习：Xpath提取网页数据

qq_55038440的博客

05-07

2241

上文初步了解了XPath的语法，这里介绍一个技巧，无需我们自己写XPath，使用浏览器自带工具即可，自动生成XPath。XPath是一种在XML文档中查找信息的语言，可以使用它在HTML源代码文档中通过元素、属性等方式进行查找和提取数据。获取标签属性值使用@属性名，以下案例获取了属性title值：@title。实例一：根据class属性进行匹配。实例三：根据name属性进行匹配。例：/div选取根元素div。例：XPath的常用语法格式。实例二：根据id属性进行匹配。选取此元素的所有子元素。

网页数据提取——XPath（py爬虫）

qq_59453650的博客

05-12

1669

XPath全称（XML path Language），即XML路径语言，用来在XML文档中查找信息。

XPath：网络爬虫中的数据提取利器

single_ffish的博客

11-13

1639

XPath (XML Path Language) ，可以帮助我们精确定位和提取需要的数据。XPath是网络爬虫中不可或缺的工具，掌握其使用可以大大提高数据提取的效率和准确性。

使用 XPath 与正则表达式优化网页数据提取：Python 爬虫技巧

06-30

1605

本文介绍了Python爬虫中两种高效的数据提取工具：XPath和正则表达式。XPath适用于定位HTML/XML文档中的节点元素，通过路径表达式快速获取结构化数据；正则表达式则擅长处理复杂文本模式匹配。文章详细讲解了两种工具的基本语法、应用场景及优缺点，并提供了结合lxml库和re模块的代码示例。在实际开发中，建议根据数据特点灵活选用或组合这两种工具：XPath处理结构化网页元素，正则表达式提取无规律文本，以提升爬虫的精确性和效率。

xpath 第一个元素_Python爬虫：Xpath高级用法！快来

weixin_39604139的博客

11-20

5127

今天给大家分享的是xpath的高级用法，python爬虫中很厉害的一个。任何网站都能抓取的爬虫工具。xpath速度比较快，是爬虫在网页定位中的较优选择，但是很多网页前端代码混乱难以定位。试验环境：Python环境，lxml.etree试验所使用的html代码：xpath test时间地点任务这里是个小标题12384104223这里是H3的内容百度一下test1test2123456789101、...

XPath学习笔记（3）

weixin_34082789的博客

04-11

255

XPath 表达式可返回节点集、字符串、逻辑值以及数字。XPath 运算符下面列出了可用在 XPath 表达式中的运算符：运算符描述实例返回值|计算两个节点集//book | //cd返回所有拥有 book 和 cd 元素的节点集+加法6 + 410-减法6 - 42*乘法6 * 424div除法8 div 42=等于price=9.80如果 price 是 9.80，则返回...

xpath如何选择第一个元素

weixin_42576804的博客

01-18

2079

可以使用 /*[1] 来选择第一个元素。

xpath 第一个元素_XPATH技术补充-实例

weixin_39675513的博客

11-20

396

实例一：基本的XPath语法类似于在一个文件系统中定位文件,如果路径以斜线 / 开始, 那么该路径就表示到一个元素的绝对路径 1、选择根元素2、选择AAA的子元素CCC的子元素3、选择AAA的子元素DDD的所有子元素实例二：如果路径以双斜线 // 开头, 则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系) 1、选择所有BBB元素2、选择所有父元素是DDD的BBB元素案例三：星号 * ...

Python网络爬虫二、Xpath语法详解

Hanzoe的博客

08-21

762

Python网络爬虫二、Xpath语法详解 lxml是一个网页解析库。Xpath是一门在XML文档中查找信息的语言。Xpath课用来在XML文档中对元素和属性进行遍历。安装 pip install lxml 导入 import requests from lxml import etree 创建一个简单的html样本，注意其特点，层层嵌套。 htm = ''' <html> ...

爬虫学习4——Xpath爬取网页信息

qq_57099024的博客

02-23

3642

xpath是在XML文档中搜索内容的一门语言，我们常见的html是xml的一个子集目录安装lxml模块获取网页数据 text()拿文本。xpath使用[1]选择同种标签的第一个。/a[@href='']根据属性href的值选择特定标签 //表示后代（子标签，孙子标签，重孙子标签）。*表示任意的节点，通配符。使用@拿到属性值 ./表示当前节点安装lxml模块 pip install lxml 获取网页数据 text()拿文本。xpath使用[1]选择同种标签的第一个。/a

XPath--解析Html

changwilling的博客

10-26

769

导语：爬虫爬取的界面，大致分为静态界面、ajax异步加载、动态界面。静态界面直接获取HTML对象，然后使用XPath获取值最有用的路径表达式：表达式描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。 .

java爬虫系列第三讲-获取页面中绝对路径的各种方法

路人甲Java

04-22

1128

在使用webmgiac的过程中，很多时候我们需要抓取连接的绝对路径，总结了几种方法，示例代码放在最后。以和讯网的一个页面为例： xpath方式获取 log.info("{}", page.getHtml().xpath("//div[@id='cyldata']").links().all()); log.info("{}", page.getHtml().xpath("//div[@id='...

WebMagic使用说明-基本的爬虫

weixin_33739646的博客

04-04

232

2019独角兽企业重金招聘Python工程师标准>>> ...

python爬虫之数据提取xpath

06-06

XPath是一种用于在XML文档中定位元素的语言，也可以用于HTML文档中。在Python爬虫中，我们可以使用XPath来提取网页中的数据。使用XPath需要安装lxml库，然后使用lxml.etree模块中的XPath函数来进行数据提取。我们可以使用Chrome浏览器的开发者工具来查看网页中的元素，然后使用XPath来定位元素并提取数据。XPath的语法比较灵活，可以根据需要进行调整。使用XPath可以提高爬虫的效率和准确性。