Beautiful Soup之节点选择器

最新推荐文章于 2024-06-30 13:18:55 发布

原创

最新推荐文章于 2024-06-30 13:18:55 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍如何使用BeautifulSoup库进行HTML解析，包括节点的选择、信息的提取、子节点和父节点的获取以及兄弟节点的查找。通过实例演示了如何获取节点的名称、属性和内容。

Beautiful Soup之节点选择器

# 导包
from bs4 import BeautifulSoup
# 创建解析对象   第一个参数是要解析的目标，第二个参数是解析器
bs = BeautifulSoup('<p>chenjiahe</p>', 'lxml')
print(bs.p.string)

prettify()方法可以把要解析的字符串以标准的缩进格式输出。
bs.p.string这是输出HTML中p节点的文本内容。

2.1 节点选择器
直接调用节点的名称就可以选择节点元素，再调用string属性就可以获取节点内的文本了。
选择元素

from bs4 import BeautifulSoup
# 创建解析对象   第一个参数是要解析的目标，第二个参数是解析器
bs = BeautifulSoup('<p>chenjiahe</p>', 'lxml')
print(bs.p.string)

- 提取信息

（1）获取名称

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

天意不可违.

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

72 – 使用Beautiful Soup 的CSS选择器获取节点信息

12-22

如何使用Beautiful Soup 的CSS选择器获取节点信息 from bs4 import BeautifulSoup html = ''' Beautiful Soup ruochen 若尘确定淘宝微软谷歌 ''' soup = BeautifulSoup(html, 'lxml') tags = soup....

爬虫Beautiful Soup节点选择器

实践求真知

01-13

3767

一点睛直接调用节点的名称就可以选择节点元素，再调用string属性就可以得到节点内的文本了，这种选择方式速度非常快。如果单个节点结构层次非常清晰，可以选用这种方式来解析。二选择元素 1 代码 html = """ <html><head><title>The Dormouse's story</title></head>.

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

头像被压扁了？ 2022.03.28
内容有点垃圾
- 天意不可违.回复头像被压扁了？ 2022.03.28
  本就是一点基础东西。众口难调，不喜勿喷。

Python Beautiful Soup教程-节点选择器之关联选择的方法

ares_beyong的博客

11-18

4974

系列文章目录 Beautiful Soup教程-简介及安装 Beautiful Soup教程-基本使用 Beautiful Soup教程-认识选择器 Beautiful Soup教程-节点选择器之选择元素的方法 Beautiful Soup教程-节点选择器之提取信息的方法 Beautiful Soup教程-节点选择器之嵌套选择的方法文章目录系列文章目录前言节点选择器——关联选择的方法1. 关联选择1. 子节点2. 子孙节点3. 父节点4. 祖先节点5. 兄弟节点2. 总结前言 Beautiful

Beautiful Soup--01节点选择器

消极的人永远是对的，积极的人选择勇往直前

11-09

296

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码，不需要考虑编码问题。 Beautiful Soup安装：https://blog.youkuaiyun.com/weixin_40959890/article/details/109565842 节点选择器 直接调用节点的名称就可以选择节点元素，再调用string属性就可以得到节点内的文本了，这种选择方式速度非常快。如果单个节点结构层次非常清晰，可以选用这种方式来解析。 html = """ <html&g

BeautifulSoup 类通过查找方法选取节点

weixin_49816293的博客

06-30

1579

上述方法包含了多个参数，每个参数接收值的类型不同，查找到的结果也会有所不同。）若值为正则表达式，则会查找名称符合正则表达式模式的所有节点。）若值为列表，则会查找名称与列表中任一元素相同的所有节点。表示待查找的属性节点，它接收一个字典，字典中的键为属性名称，值为该属。当在节点树中查找节点时，如果节点树非常大，那么。）若值为字符串，则会查找名称与字符串完全相同的所有节点。键字参数的名称作为节点的属性名称，值作为属性值。方法用于查找所有符合条件的节点，并以列表的形式返回。节点树选取节点的方法，其中比较主流。

Python Beautiful Soup教程-节点选择器之嵌套选择的方法

ares_beyong的博客

11-18

5074

系列文章目录 Beautiful Soup教程-简介及安装 Beautiful Soup教程-认识选择器 文章目录系列文章目录前言节点选择器——嵌套选择的方法1. 嵌套选择的方法2. 总结前言 Beautiful Soup是一个API简单、功能强大、支持多种解析器，能够实现编码转化的解析工具。本教程就用来介绍Beautiful Soup的简单使用。节点选择器——嵌套选择的方法学习目标掌握节点选择器嵌套选择的方法 1. 嵌套选择的方法我们可以使用soup.tag获取bs4.element

Python Beautiful Soup教程-节点选择器之选择元素的方法

ares_beyong的博客

11-18

5901

系列文章目录 Beautiful Soup教程-简介及安装 Beautiful Soup教程-认识选择器 提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言节点选择器——选择元素的方法1. 选取元素的方法1.1 格式1.2 示例1.3 结论2. 总结前言 Beautiful Soup是一个API简单、功能强大、支持多种解析器，能够实现编码转化的解析工具。本教程就用来介绍Beautiful Soup的简单使用。提示：以下是本篇文章正文内容，下面案例可供参考节

beautifulsoup获取属性_基础学习——BeautifulSoup篇(1)

weixin_42533622的博客

12-29

895

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。换句话说，它是我们解析网页的利器欢迎关注公众号：老白和他的爬虫BeautifulSoup3 目前已经停止开发,今天学习的是BeautifulSoup41.简单入手我们以豆瓣网为例，编辑下面这段代码from bs4 import Beautiful...

学习BeautifulSoup4(1)

ASCE_S的博客

01-19

298

BeautifulSoup4 简介 Beautiful Soup是一个可以从HTML或者XML文件中提取数据的Python库。可以通过选择转换器来实现惯用的文档导航，查找，修改文档的方式。Beautiful Soup可以帮助我们节省数小时设置数天的工作时间。安装Beautiful Soup 如果是在Debian或者ubuntu下，可以通过系统的软件包管理来安装： $ apt-get inst...

python爬虫常用库之BeautifulSoup详解

weixin_33736832的博客

04-01

348

这是日常学python的第16篇原创文章经过了前面几篇文章的学习，估计你已经会爬不少中小型网站了。但是有人说，前面的正则很难唉，学不好。正则的确很难，有人说过：如果一个问题用正则解决，那么就变成了两个问题。所以说学不会是很正常的，不怕，除了正则，我们还可以用另外一个强大的库来解析html。所以，今天的主题就是来学习这个强大的库--BeautifulSoup，不过正则还是需要多多练习下的。因为是第三...

如何获取页面元素：id，标签名，class，指定选择器querySelector，querySelectorAll，html，body

weixin_45673401的博客

02-07

1万+

如何获取页面元素：id，标签名，class，指定选择器querySelector，querySelectorAll，html，body 第一种通过ID获取；代码和注释如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>id获取页面元素</tit...

【Python技能树共建】Beautiful Soup

梦想橡皮擦，专栏100例写作模式先行者，现象级专栏《Python 爬虫 100 例》作者、《滚雪球学 Python 专栏》原创者

05-08

2万+

Beautiful Soup模块是什么初学 Python 爬虫，十之八九你采集的目标是网页，因此快速定位到网页内容，就成为你面临的第一道障碍，本篇博客就为你详细说明最易上手的网页元素定位术，学完就会系列。本文核心使用到的是 Beautiful Soup 模块，因此我们用来做测试采集的站点，也是其官网（现阶段爬虫采集越来越严格，很多站点不能在采集了，很容易被封杀，只能学谁就采集谁了）官方站点 www.crummy.com/software/BeautifulSoup/ Beautiful Soup

Python爬虫利器：Beautiful Soup的使用（二）

Amauri的博客

09-28

651

上一篇文章介绍了 BeautifulSoup 的安装以及基本对象类型。本次介绍使用 bs4 对 HTML 文档树的遍历。先把本文用到的例子贴上： str = """ &lt;!DOCTYPE html&gt; &lt;html&gt; &lt;head&gt;&lt;title&gt;bs4 test&lt;

beautifulsoup通过id获取指定元素内容

Lynn_coder的博客

03-10

4万+

<tr style="background-color:#fff;"> <td colspan="2" align=left valign="top"> <table id="zoom2" width="94%" border="0" cellspacing="0" cell

BeautifulSoup 获取第二个span标签内容

徐代龙的技术专栏

05-21

3万+

场景声明下：这里把span标签替换成a标签是一样的逻辑。 <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a> <a href="http://example.com/lacie" class="sister" id="link2&quo

Learn Beautiful Soup(3)——使用Beautiful Soup进行查找

最新发布

06-07

<think>我收到了用户的问题，他想了解BeautifulSoup中CSS选择器的用法。根据系统级指令，我需要参考提供的站内引用，并确保回答结构清晰、真实可靠。用户明确询问"BeautifulSoupCSS选择器使用方法"，所以我应该从引用中提取关键信息，组织成逐步的讲解。回顾站内引用：-引用[1]提到BeautifulSoup是一个网页解析库，支持CSS选择器。-引用[2]指出CSS选择器用于高效查找HTML元素。-引用[3]描述了嵌套选择和方法混用。-引用[4]和[5]包含具体代码示例：select()方法的基本使用、属性获取和文本提取。这些引用完整覆盖了CSS选择器的核心用法。我将基于它们构建回答，避免添加外部知识以保持真实性。结构化回答：1.从基础引入：解释什么是CSS选择器，在BeautifulSoup中的作用。2.核心方法：重点讲select()方法，这是使用CSS选择器的入口。3.基本选择器类型：分点介绍类、ID、标签等选择器，用引用[4]的代码示例辅助说明。4.高级用法：嵌套选择，引用[3]提到可以混合其他选择器，展示代码。5.属性与文本提取：基于引用[5]的示例解释如何获取href和文本。确保数学表达式用$...$格式：在回答中可能涉及选择器语法如.class，保持普通文本格式。自然添加引用标识：每部分末尾引用对应来源，如[^4]。生成相关问题：基于主题，考虑可能的扩展如实战技巧或常见错误。最后用中文回答：确保语言流畅易懂。</think> 下面是Beautiful Soup中CSS选择器使用方法的详细说明（基于引用资料）： ### 1. CSS选择器核心方法：`select()` 通过`soup.select(css_selector)`查找元素，返回**Tag对象列表**： ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'lxml') # 查找所有<ul>下的<li>标签 lis = soup.select('ul li') # [^4] # 查找class为"panel"下的所有class为"panel-heading"的元素 headings = soup.select('.panel .panel-heading') # [^4] ``` ### 2. 基础选择器类型 | 选择器类型 | 语法示例 | 功能说明 | 来源 | |------------------|------------------------|-----------------------------------|--------| | 类选择器 | `.panel-heading` | 选择class属性匹配的元素 | [^4] | | ID选择器 | `#list-2` | 选择id属性匹配的元素 | [^4] | | 标签选择器 | `li` | 选择所有指定标签元素 | [^2] | | 后代选择器 | `.panel .panel-body` | 选择嵌套在父元素内的子元素 | [^4] | ### 3. 嵌套选择与混合使用 ```python # 先选择所有class="item"的元素，再在其中查找<a>标签 tags = soup.select('.item') for tag in tags: a_tags = tag.select('a') # 在结果集上继续使用CSS选择器 [^3] # 混合方法选择器：先通过CSS选择，再用find_all() a_tags = tag.find_all(name='a') # [^5] ``` ### 4. 属性与文本获取 ```python for a in soup.select('a'): # 获取属性值两种方式 href = a['href'] # 直接通过属性名访问 [^5] href = a.attrs['href'] # 通过attrs字典访问 [^5] # 获取文本内容两种方式 text = a.get_text() # 获取所有子孙文本 [^5] text = a.string # 仅当前节点的文本 [^5] ``` ### 5. 选择器组合使用示例 ```python # 获取id="list-2"下class="element"的所有<li> elements = soup.select('#list-2 .element') # [^4] # 获取<li>中带有value1属性的元素 soup.select('li[value1]') # 属性存在选择器 [^5] ``` > **注意要点**： > 1. CSS选择器返回的是**Tag对象列表**，可直接继续解析 > 2. 复杂选择需考虑HTML嵌套层级（如空格表示后代关系） > 3. 属性选择器支持`[attribute=value]`精确匹配[^5]