BeauttifulSoup 在获取文本的时候如何不获取子节点的文本

原创已于 2023-11-12 16:55:44 修改 · 372 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #beautifulsoup #爬虫

于 2023-11-12 16:54:53 首次发布

本文介绍了在使用Python的BeautifulSoup库处理HTML时，如何通过`.contents[0]`属性从a标签中直接获取文本内容，避免了繁琐地提取子节点的过程。

使用select方法时会获取到后续子节点的所有文本，之前解决的办法时使用lxml库进行提取，很麻烦，终于找到了一个方法：.contents[0]

soup=BeautifulSoup(response.text,'lxml')
a=soup.select('li a')[0]

获取a标签内的文本而不获取a标签下的子节点的文本：

title=a.contents[0]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lupe_c

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

BeautifulSoup只获取当前节点的text，而不包含子节点text

iMatt的专栏

02-16

2087

例如: <div> hello <a> world</a> </div> 希望只返回hello. 做法:查找时,text参数为True. print(soup.find("div",text=True).get_text());

beautifulsoup如何只爬取直接标签的内容而不爬取子标签的内容

ASN_forever的博客

11-14

7907

对于这个问题，在网上大概找到两种靠谱点的回答，但实际上也是有问题的。第一种方法调用find(text=True).strip() 第二种方法调用stripped_strings 测试代码 from bs4 import BeautifulSoup html1 = """ <li> hello</sp...

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2023.11.13
恭喜博主能够持续创作，分享关于BeautifulSoup在获取文本时如何不获取子节点文本的经验。希望能够看到更多关于BeautifulSoup的技巧分享，也可以考虑结合实际案例进行讲解，让读者更容易理解和运用。期待您的下一篇博客！加油！

BeautifulSoup解析出不含子节点的文本

Kwoky的博客

09-28

6815

tag_p = """ 目标文本 <a>子节点文本</a> """ bs4_p = BeautifulSoup(tag_p) print(bs4_p.p.contents) print(bs4_p.p.contents[0].strip())

BeautifulSoup 中去掉 获取文本内容

MAO_JIN_DAO的博客

01-13

3万+

参考 Beautifulsoup文档知乎网友方法 arsing unclosed br tags with BeautifulSoup Data >>> type(ips) class 'bs4.element.Tag'> >>> print ips p>64.158.31.142:3128 美国科罗拉多州布隆菲尔德市Level3通信公司42.104.84.107:80

python span标签的text属性_Python3 BeautifulSoup模块（3）：bs4通过contents[0]获取子节点中不包含span标签，并且a标签本身不包含class属性的a标...

weixin_39772352的博客

12-05

816

子节点一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.BeautifulSoup提供了许多操作和遍历子节点的属性.注意: BeautifulSoup中字符串节点不支持这些属性,因为字符串没有子节点一、实例代码import urllibfrom urllib import requestfrom bs4 import BeautifulSoupimport re#获取页面ba...

bs4(beautifulsoup4)获取div部分文本内容（标签下的文本及子标签文本问题）

爱美食的Geek

02-11

2万+

一.问题如何提取以下文本中的“开车之后…踩了刹车” 如何提取以下文本中的“开车之后.......踩了刹车” <div class="zh-summary summary clearfix"> 开车之后明白了一个道理：你能横穿马路跑过去，不是因为你跑得快，而是过来的车都踩了刹车。 <a href="/question/38627388/answer/124188978" cl...

Beauttifulsoup的select函数用法

01-11

BeautifulSoup的`select()`函数是用来在HTML或XML文档中通过...如果你只想获取第一个符合条件的元素，可以使用列表的第一个元素，例如: ```python first_p = soup.select("p")[0] ``` 你还可以使用`select_one()`函数

继续回答Beauttifulsoup的select函数用法

09-17

7. 获取元素的文本内容： element.get_text() # 返回元素的文本内容 8. 获取元素的属性值： element['属性名'] # 返回指定属性的值通过组合不同的选择器，我们可以根据需要灵活地定位和提取HTML或XML文档中的...

用Beauttifulsoup进行属性定位时,有哪些注意事项

01-11

1. 在使用 `find` 或 `find_all` 方法时, 你可以使用字典来传递属性, 例如 `soup.find_all(attrs={'class': 'class_name'})`。这样就可以找到所有 class 属性为 class_name 的元素。 2. 如果你想找到所有包含某个...

BeautifulSoup 提取某个tag标签里面的内容

BeauttifulSoup 在获取文本的时候 如何不获取子节点的文本

1 条评论

BeauttifulSoup 在获取文本的时候如何不获取子节点的文本