XPath提取多个标签下的text

最新推荐文章于 2024-10-14 14:09:46 发布

原创最新推荐文章于 2024-10-14 14:09:46 发布 · 347 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫


import urllib.request
from lxml import etree




url = 'https://www.jiangxi.gov.cn/art/2024/10/5/art_393_5024212.html'

headers = {
    'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36 Edg/129.0.0.0'
}

request = urllib.request.Request(url=url,headers=headers)

response = urllib.request.urlopen(request)

content = response.read().decode('utf-8')

tree = etree.HTML(content)



text1 = tree.xpath('//div[@id="zoom"]/p/text()')

text2 = ' '.join(tree.xpath('//div[@id="zoom"]/p/text()'))

#其实text1是列表，里面有很多个值

#第一段
text10 = text1[0]
#第二段
text11 = text1[1]
#第三段
text12 = text1[2]


print(text1)
print(text10)
print(text11)
print(text12)

print("\n\n\n以下是整合:\n",text2)

把多段文字合并

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

宋汪汪上学堂

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

100天精通Python（爬虫篇）——第116天：利用lxml与Xpath解析提取网页数据

努力让自己发光，对的人才能迎着光而来

07-03

22万+

一、爬虫提取网页数据的流程图二、lxml库 1. 下载安装 2. 解析HTML网页三、Xpath介绍 1. 选取节点 2. 谓语 3. 选取未知节点 4. 选取若干路径 5. Chrome插件 XPath Helper安装使用 6. Xpath实战..................

浅谈后置处理器之XPath提取器

测试人，测试魂

07-18

1326

XPath Extractor位于JMeter的“后处理器”类别下，其主要用途是从响应数据中提取文本内容，并将其存储为变量以供后续请求使用。这在模拟用户与网站或Web服务交互时特别有用，特别是在需要处理那些每次请求都会变化的参数时。XPath Extractor是JMeter中一个强大且灵活的组件，它极大地扩展了测试脚本处理复杂响应数据的能力。通过熟练掌握XPath语法和正确配置XPath Extractor，你可以构建更加真实、动态和健壮的性能测试场景。

参与评论您还未登录，请先登录后发表或查看评论

通过Xpath解析尝试多种方法提取文本

weixin_44976611的博客

11-01

1963

【代码】通过Xpath解析尝试多种方法提取文本。

初学python爬虫，记录一下学习过程，xpath提取文本

qq_46292926的博客

02-21

865

紧接前面的xpath提取属性，这篇则提取文本 ''' xpath提取网页的文本面向过程编程 ''' #导入第三方库 import requests from lxml import etree #定制请求头 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' ...

用xpath获取指定标签下的所有text的实例

01-21

今天用xpath获取的元素下面text 是被几个b标签分割开的，我想要一次性全部获取，参考了其他人的博客是如下的做法： value_ls = html.xpath(//tr/td[7]) value = value_ls[0].xpath('string(.)').extract()[0] 但是因为我用的是 lxml，系统报错，lxml元素没有extract() 这个方法，去掉这个方法后，可以正常使用。所以要根据自己的情况选择要不要用.extract() value_ls = html.xpath(//tr/td[7]) value = value_ls[0].xpath('st

xpath提取多个标签下的text

weixin_30737433的博客

01-17

982

xpath提取多个标签下的text title: xpath提取多个标签下的text author: 青南 date: 2015-01-17 16:01:07 categories: [Python] tags: [xpath,Python,xml,scrapy] --- 本文首发在http://kingname.info 在写爬虫的时候，经常...

Xpath解析HTML网页，爬取网页文本信息

qdmqdtt的博客

10-14

2236

1.使用F12快速进入开发人员工具（或快捷键：ctrl+shift+i，或点击浏览器右上角三个点“. . .”--->d点击更多工具--->点击开发人员工具）在Headers中有一个request headers字段，里面记录了headers和cookie的信息。打开elements查看网页元素。点击network，再对该页面进行刷新重新响应，再点击要爬取的页面html。2.查看页面信息headers和cookie。当提取不同元素下的信息时，用 | 连接。打印的信息是完整的HTML格式页面。

精选资源

对Xpath 获取子标签下所有文本的方法详解

01-20

path -- 你xpath提取的路径这里提取到父标签 string() 方法会提取子标签多有的文本内容。以上这篇对Xpath 获取子标签下所有文本的方法详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多...

python利用xpath分别获取多个相同标签之间的全部内容

weixin_47708708的博客

07-17

1633

最近上课学习到了爬虫，然后尝试爬取一个网站，想爬取同一段落多个相同标签之间的内容。想了好久，终于成功获取了，所以记录一下。例如获取h2标签之间所有的p标签的内容。这样就可以循环获取h2标签之间的内容了。

用xpath取出属性值的文本

weixin_35753291的博客

01-03

5773

使用 xpath 取出属性值的文本的方法如下：在 xpath 表达式中使用 @ 符号来选择元素的属性。例如，如果要选择元素的 class 属性，可以使用 @class。使用文本函数来获取元素的文本值。例如，要获取 class 属性值的文本，可以使用以下 xpath 表达式： text(@class) 将 xpath 表达式应用于选择元素的方法，以获取属性值的文本。例如，在使用 ...

xpath获取标签之间的文本内容

willgon的专栏

01-06

4906

xpath获取标签之间的文本内容

数据提取之Xpath

lizoe_的博客

01-23

605

1. xpath和lxml lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息 2. 什么是xpath XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。 W3School官方文档：http://www.w3schoo...

xpath在爬虫时包含多个标签的用法

forceair的博客

01-11

1506

xpath在爬虫时包含多个标签的用法

xpath获取标签和子标签下的文字内容

執筆冩回憶

02-07

1970

from lxml import etree html = """ <ol> <li class="">直接选取<code>ul</code>的第二个<code>children</code></li> </ol> """ data = etree.HTML(html) result = data.xpath('string(//ol/li)') print(result) .

xpath的使用：定位，获取文本和属性值

weixin_34187862的博客

10-09

1687

myPage = '''<html><title>TITLE</title><body><h1></h1><div></div><div id="photos"><img src="pic1.jpeg"/><span id="pic1">*</span>&...

xpath取出某个标签下多个标签的所有文本信息三种方法

Python_BT的博客

08-25

7105

爬虫爬取数据有时候我们需要爬取多个标签的文本内容，或者需要保留标签属性，就要连同标签一起拿下来。你可以写正则，今天我介绍一种用xpath爬取的方法。下边第一种方法就可以连同HTML标签一起爬下来，后两种能爬取所有文本信息，但没有了标签属性： ① 第一种方法可以取出某个标签内的HTML字符串，包含各种标签属性，输出的结果就是网页正常显示的文章部分的HTML。 html_content3 = requests.get(details_url).text html = etree.HTML(html_

Xpath提取数据

珂鸣玉的博客

04-29

7400

一、什么是Xpath？ XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School 官方文档：http://www.w3school.com.cn/xml/index.as...

爬虫问题记录（xpath）——一行文本被xpath解析成多行文本

weixin_54243306的博客

06-05

881

可以看到在网页结构中，文本中间插入了img标签元素，在加上写xpath时在xpath后面添加了。把要获取的文本内容移动到xpath之后就可以了，就是还有个问题，这样子就只会匹配到第一个文本。后面的文本匹配不到，这个问题后面再看看怎么解决。就会导致这个问题的出现。

XPath提取div下的br标签前后内容

最新发布

03-20

### 使用 XPath 提取 `div` 标签下 `br` 前后的内容要通过 XPath 获取 `div` 标签下 `br` 标签前后的内容，可以利用 XPath 的 **轴（axis）** 功能来实现。具体来说，可以分别使用 `preceding-sibling::text()` 和 `following-sibling::text()` 来获取目标节点的兄弟文本节点。 #### 获取 `br` 标签之前的内容对于位于某个 `div` 中的 `br` 标签，其之前的文本内容可以通过以下 XPath 表达式获得： ```xpath //div/br/preceding-sibling::text() ``` 这会返回该 `br` 标签之前的所有文本节点[^1]。 #### 获取 `br` 标签之后的内容类似的，如果想获取 `br` 标签之后的文本内容，则可采用如下表达式： ```xpath //div/br/following-sibling::text() ``` 此语句能够匹配到紧跟在指定 `br` 后面的所有文本节点。需要注意的是，在实际应用过程中可能还需要进一步筛选具体的上下文中所需的单个或多个特定位置上的文本片段。比如仅需第一个前置或者后续文字时可以在上述基础上加上索引限定条件如 `[1]`: ```xpath //div/br/preceding-sibling::text()[1] //div/br/following-sibling::text()[1] ``` 这些方法允许精确控制所选范围并满足不同场景下的需求[^3]。另外值得注意的一点是当处理HTML页面结构复杂度较高情况下, 可能存在嵌套层次较深或者其他干扰因素影响最终结果准确性因此建议结合实际情况调整策略同时验证输出是否符合预期效果[^2]. 以下是基于 Python Selenium 实现的一个简单例子展示如何操作以上提到的功能： ```python from selenium import webdriver driver = webdriver.Chrome() # 加载网页 url = 'your_target_url' driver.get(url) # 查找 br 标签前后的文本内容 before_text = driver.find_element_by_xpath("//div/br/preceding-sibling::text()").text after_text = driver.find_element_by_xpath("//div/br/following-sibling::text()").text print(f"Before BR Text: {before_text}") print(f"After BR Text: {after_text}") driver.quit() ```