python爬虫学习笔记--BeautifulSoup （二）（三种遍历类型）

最新推荐文章于 2023-06-16 15:27:07 发布

原创最新推荐文章于 2023-06-16 15:27:07 发布 · 855 阅读

1 ·

CC 4.0 BY-SA版权

python爬虫专栏收录该内容

7 篇文章

订阅专栏

demo = ("http://python123.io/ws/demo.html").text

标签树遍历方式：

下行遍历：

.content() // 当前节点子节点的列表，将<tag>所有儿子节点存入列表

.children() // 子节点的迭代类型，循环编列儿子节点（类似content）

.descendants() // 获取当前节点所有后续节点的信息（迭代类型）

上行遍历，：

.parent 节点的父亲标签

.parents 节点所有先辈的标签（迭代类型）

遍历时会遍历到soup本身，其parent为None

祖先的父亲是自己

平行遍历：

.next_sibling / .next_siblings 返回HTML文本顺序的下一个平行节点标签 / 其迭代类型

.previous_sibling / .previous_sliblings 上一个 / 迭代

返回值可能是None， string，标签

平行遍历必须发生在同一个父亲节点下，否则不行

soup.prettify() 对HTML文本的标签tag添加换行符，使得文本更容易阅读

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Changod

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

学习笔记：BeautifulSoup的3种遍历方式

苏法迪的专栏

12-19

2245

使用 BeautifulSoup 解析HTML内容+ 遍历搜索

book_dw5189的博客

02-24

1376

使用 BeautifulSoup 解析HTML内容+ 遍历搜索

参与评论您还未登录，请先登录后发表或查看评论

python可遍历的数据类型是_python对常见数据类型的遍历解析

weixin_39540426的博客

12-04

445

字符串遍历>>> a_str = "hello itcast">>> for char in a_str:... print(char,end=' ')...h e l l o i t c a s t列表遍历>>> a_list = [1, 2, 3, 4, 5]>>> for num in a_list:... p...

【Python】可遍历的数据类型有哪些？

YaoYee_21的博客

07-25

2113

列表（list），字符串（str），元组（tuple），字典（dict）和集合（set）

爬虫利器 Beautiful Soup 之遍历文档

qq_36594703的博客

06-16

2195

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库，它提供了一些简单的操作方式来帮助你处理文档导航，查找，修改文档等繁琐的工作。因为使用简单，所以 Beautiful Soup 会帮你节省不少的工作时间。本章节介绍了 Beautiful Soup 的使用场景以及操作文档树节点的基本操作，看似很多东西其实是有规律可循的，比如函数的命名，兄弟节点或者下一个节点的迭代函数都是获取单个节点函数的复数形式。

python爬虫学习笔记之Beautifulsoup模块用法详解

09-17

**Python 爬虫Beautifulsoup模块详解** 在Python爬虫领域，Beautifulsoup是一个不可或缺的工具，它是一个用于从HTML或XML文件中提取数据的库。它提供了简单的API，使得开发者可以方便地对网页进行导航、搜索和修改...

python爬虫学习笔记-使用BeautifulSoup解析html

懒懒的书虫

11-24

1192

之前抓取豆瓣图书Top250的时候，获取内容使用的方法是正则表达式匹配，看上去是一种比较简洁的方法，但问题在于，正则表达式的编写必须非常细心，一旦出了任何小问题，就会导致得不到想要的结果。熟悉html的话，不难想到可以利用节点之间的结构和层级关系来作区分并进一步获取节点内想要的文本。于是BeautifulSoup库为我们实现了这种更加直接的匹配方法，BeautifulSoup是一个python的...

python爬虫学习笔记（二）——解析内容

01-20

– 获取到网页数据后，我们发现我们想...Beautiful Soup库的安装（Beautiful Soup库是解析、遍历、维护“标签树”的功能库）：按WIN键+R键打开运行，输入cmd后回车进入命令提示符 pip install beautifulsoup4 然而，

python爬虫学习笔记 2.9 （使用bs4得案例）

12-21

在Python爬虫领域，BeautifulSoup4（简称bs4）是一个常用的数据解析库，它与lxml结合使用，能高效地解析HTML和XML文档。在学习笔记2.9中，我们探讨了如何使用bs4来抓取和处理网页数据。本节以腾讯社招页面为例，演示...

python BeautifulSoup遍历文档树，太香了

sixstar_996的博客

03-22

2131

html = “”" 职位名称职位类别人数地点发布时间 22989-金融云区块链高级研发工程师（深圳）技术类 1 深圳 2017-11-25 words=python&tid=87&lid=2218">22989-金融云高级后台开发技术类 2 深圳 2017-11-25 SNG16-腾讯音乐运营开发工程师（深圳）技术类 2 深圳 2017-11-25 SNG16-腾讯音乐业务运维工程师（深圳）技术类 1 深圳 2017-11-25 TEG03

学习笔记之BeautifulSoup（2）——遍历文档树

weixin_37938228的博客

03-13

910

（以下均以该文档举例说明）遍历文档树 1.子节点 .一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许多操作和遍历子节点的属性. 注意: Beautiful Soup中字符串节点不支持这些属性,因为字符串没有子节点。（1）tag的名字操作文档树最简单的方法就是告诉它你想获取的tag的name，可以在文档树的tag中多次调用这个方法；...

BeautifulSoup库-标签解析遍历

small-white的博客

09-22

4218

目录 BeautifulSoup库的介绍 BeautifulSoup类的基本元素 html的内容遍历 BeautifulSoup库的介绍安装：pip install BeautifulSoup4 <html> <body>标签树</body> ... </html> BeautifulSoup库是解析...

python_BeautifulSoup库之遍历文档树

Teagle的博客

10-28

1659

组别名称作用输出备注第一组 contents 获得当前tag的所有子节点 list 注意当前是一个tag对象 - children 获得当前tag的所有子节点 list_iterator 注意当前是一个tag对象 - descendants 获得当前tag的所有子孙节点 generator 子孙节点同样返回第二

【爬虫】2.4 BeautifulSoup遍历文档元素

Jack

02-24

464

BeautifulSoup遍历文档元素上行遍历下行遍历平行遍历

Python中的for循环可以遍历哪些数据类型？

2301_78316786的博客

05-27

2627

range()函数可以接受不同的参数，例如range(5)会生成0到4的整数序列，range(0, 5)会生成0到4的整数序列（包括5），而range(0, 5, 1)会生成0到4的整数序列（每次相差1）。现在你可以根据自己的需求使用for循环来遍历各种数据类型，执行特定的操作了。其实，Python中的for循环可以遍历几乎所有的数据类型，包括数字、字符串、列表、元组、字典、集合等等。此外，你还可以使用enumerate()函数来遍历一个可迭代对象的元素以及它们的索引。那么，我们再来看看一些进阶的用法吧。

BeautifulSoup 用法详解 —— 遍历文档树

xiaoyu_wu的博客

10-07

1724

Beautiful Soup 4.4.0文档：https://beautifulsoup.readthedocs.io/zh_CN/latest/ 1.子节点一个 Tag可能包含多个字符串或其它的 Tag，这些都是这个 Tag的子节点。BeautifulSoup提供了许多操作和遍历子节点的属性。操作文档树最简单的方法就是告诉它你想获取的tag的 name。 # 获取...

python爬虫类型_python爬虫中Beautiful Soup有哪些种类?

weixin_39679718的博客

12-19

180

作为python中优秀获取数据的工具，Beautiful Soup种类也比较多。每一个种类对应着不同的知识点，小伙伴们学习的时候要用心记忆。当然知识不是一天就能学会的，就像罗马也不是一天就建成的。勤学勤练才是进阶python大神的唯一路径。接下来就开始我们今天对于Beautiful Soup的学习吧。一、TagTag 是什么？通俗点讲就是 HTML 中的一个个标签，例如TheDormouse's...

python中beautifulsoup是什么_Python中beautifulsoup学习笔记一

weixin_35992880的博客

02-03

331

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag,NavigableString,BeautifulSoup,Comment.BeautifulSoup对象表示的是一个文档的全部内容.大部分时候,可以把它当作Tag对象,它支持遍历文档树和搜索文档树中描述的大部分的方法.Tag,Na...

BeautifulSoup的几种遍历方式