bs4 string 和 text区别

最新推荐文章于 2024-08-04 08:26:03 发布

原创最新推荐文章于 2024-08-04 08:26:03 发布 · 367 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python

python 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了在HTML解析过程中.find和.string的区别。当处理TD标签时，.string返回单一文本，而.text会合并所有子节点的文本。对于有多个文本节点的情况，.string返回空，.text则进行拼接。了解这些差异对网页内容的正确解析至关重要。

下面展示一些 内联代码片。

1、<td>some text</td> 
2、<td></td>
3、<td><p>more text</p></td>
4、<td>even <p>more text</p></td>

.string

1、some text
2、None
3、more text
4、None

.text

1、some text
2、
3、more text
4、even more text

通过以上的举例，可以很清楚的发现，.find和.string之间的差异：

第一行：在指定标签td，没有子标签，且有文本时，两者的返回结果一致，都是文本
第二行：在指定标签td，没有子标签，且没有文本时，.string返回None，.text返回为空

第三行：在指定标签td，只有一个子标签时，且文本只出现在子标签之间时，两者返回结果一致，都返回子标签内的文本

第四行：最关键的区别，在指定标签td，有子标签，并且父标签td和子标签p各自包含一段文本时，两者的返回结果，存在很大的差异

.string：返回为空，因为文本数>=2，string不知道获取哪一个

.text：返回的是，两段文本的拼接。

转载：https://blog.youkuaiyun.com/zqxnum1/article/details/84587357

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Tomb Hao

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python爬虫解析工具BeautifulSoup（bs4）和CSS选择器——处理HTML和XML数据（7）

@优快云盲敲代码的阿豪的博客

09-22

505

解析工具的使用正则语法 BeautifulSoup xpath语法（后续学习）jsonpath 字典推荐使用lxml解析库标签选择器筛选功能弱但是速度快建议使用find()、find_all() 查询匹配单个结果或者多个结果如果对CSS选择器熟悉建议使用select()记住常用的获取属性和文本值的方法。

bs4 string与text的区别

zqxnum1的专栏

11-28

1521

原链接:https://zhuanlan.zhihu.com/p/30911642 用python写爬虫时，BeautifulSoup真是解析html，快速获取所需数据的神器。这个美味汤使唤起来，屡试不爽。在用find()方法找到特定的tag后，想获取里面的文本，可以用.text属性或者.string属性。在很多时候，两者的返回结果一致，但其实两者是有区别的。 .string...

参与评论您还未登录，请先登录后发表或查看评论

bs4中.string和.text 的区别

a18307096730的博客

10-03

1086

这两种方法都是用来获取标签中的文本内容分四种情况来区分： 1. 在指定标签td，没有子标签，且有文本时，两者的返回结果一致，都是文本 2. 在指定标签td，没有子标签，且没有文本时，.string返回None，.text返回为空 3. 在指定标签td，只有一个子标签时，且文本只出现在子标签之间时，两者返回结果一致，都返回子标签内的文本 4 .最关键的区别，在指定标签td，有子标签，并且父标签td和子标签p各自包含一段文本时，两者的返回结果，存在很大的差异 .string返回为空，因为文本数&g

Text和String的区别

izzzyx的专栏

05-28

7973

Text和String的区别主要在于几个关于位置和长度的方法(lenght、indexOf(find)、charAt)所针对的对象不同，Text的位置是UTF-8编码后的字节偏移量，长度是UTF-8编码后的字节数组大小，而String针对的是Java char（String有一个codePointAt方法可以获得和Text的charAt一样的效果）。一个来自《Hadoop 权威指南》的例子：

Python：bs4中 string 属性和 text 属性的区别及背后的原理

weixin_30352645的博客

11-14

486

刚开始接触 bs4 的时候，我也很迷茫，觉得 string 属性和 text 属性是一样的，不明白为什么要分成两个属性。 html = '<p>hello world</p>' soup = BeautifulSoup(html, 'lxml') p = soup.p print(p.string)　　# hello word print(p.text)　　 ...

Text和String比较

weixin_44521638的博客

08-20

2067

一般认为Text类和String类是等价的，但二者之间其实存在着不小差别：以《Hadoop权威指南》中的案例为例，给定字符串  String s = “\u0041\u00DF\u6771\uD801\uDC00”; //s打印出来为"Aß東

BS4_BeautifulSoup.docx

06-06

### BS4（BeautifulSoup）快速上手入门手册 #### 一、BS4模块介绍与安装 **1.1 模块概述** BeautifulSoup是一个用于解析HTML和XML文档的强大Python库。它提供了简单易用的API来帮助开发者从网页中提取所需的数据...

python中bs4.BeautifulSoup的基本用法

09-18

`bs4.BeautifulSoup`是BeautifulSoup的核心类，它提供了丰富的API来方便地提取和操作网页数据。以下是对标题和描述中所提及的`bs4.BeautifulSoup`基本用法的详细解释：首先，我们需要导入`bs4`模块，并创建一个...

『python爬虫』beautifulsoup库获取文本的方法.get_text()、.text 和 .string区别（保姆级图文）

MZH

08-04

1287

『python爬虫』beautifulsoup库获取文本的方法.get_text()、.text 和 .string区别（保姆级图文）

Python爬虫使用bs4方法实现数据解析

09-16

4. 遍历每个章节列表项，提取标题（`li.a.string`）和详情页URL（`li.a['href']`）。 5. 对详情页发起新的请求，提取章节内容。通过这些基本操作，我们可以构建出复杂的爬虫程序，以高效地抓取和处理网络上的数据...

bs4中.string和.text之于html注释的作用

weixin_44613271的博客

02-23

591

bs4中.string和.text之于html注释的作用对于有注释的html文件：出现了一个好奇怪的现象：就是再适用bs4的时候，对于之前书本上学到的.text和.string之间的关系，text用于一个大标签中有多个字符串的情况，会返回用空格隔开的一大串字符串；但是string则是再这个情况之下会失灵，对于多个字符串只能返回none 但是在此处，虽然只有一个字符串，但是在字符串中间出现了这种情况，我们要格外的注意：有注释就不能适用string进行爬取，否则会返回none！应该使用text！

Hadoop中Text类型与 String的区别

会飞的大象

06-10

1万+

Hadoop中Text类型与 String的区别

Python爬虫之string、strings、stripped_strings、get_text和text用法区别

qq_22592457的博客

09-07

1万+

Python爬虫获取html中的文本方法多种多样，这里主要介绍一下string、strings、stripped_strings和get_text用法 string：用来获取目标路径下第一个非标签字符串，得到的是个字符串 strings：用来获取目标路径下所有的子孙非标签字符串，返回的是个生成器 stripped_strings：用来获取目标路径下所有的子孙非标签字符串，会自动去掉空白字符串...

万字博文让我们携手一起走进bs4的世界【python Beautifulsoup】bs4入门 find()与find_all()

IT赵云的博客

03-15

5214

BeautifulSoup 支持从HTML或XML文件中提取数据的Python库支持Python标准库中的HTML解析器还支持一些第三方的解析器lxml,使用的是Xpath语法，推荐安装。 BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式. 认识： find_all() | find() .text | get_text() string|strings|.stripped_strings

python bs4标签中含有标签string为空

黑面狐

06-30

4531

用bs4解析的时候发现一个问题，标签中含有标签，string属性打印出来的内容为空。如：想要打印出p中的文本内容使用p.string打印结果为None. 查询资料：获取tag内容有如下三种方法 soup.a.string soup.a.text soup.a.get_text() string方法不能处理标签中含有标签的内容，获取为None text和get_text可以获...

BeautifulSoup中的.text方法和get_text()方法的区别