爬虫学习3.BeautifulSoup网页解析库

本文介绍BeautifulSoup库的安装及使用方法,涵盖标签选择器、标准选择器和CSS选择器等,适合初学者快速掌握网页信息提取技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.

1.BeautifulSoup:灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。

2.安装:pip3 install beautifulsoup4 

pycharm 里beautifulsoup4 的安装

二.用法讲解

1.解析库

2.基本使用

3.标签选择器(速度快,但不能满足html文档的解析)

(1)选择元素

(2).获取名称(标签名称)

(3).获取属性

(4).获取标签内容

(5).嵌套选择

(6).子节点和子孙节点

(7).获取子节点的方法2.children

(8).获取子节点,子孙的方法.descendants

(9)获取父节点.parent

获取祖先节点.parents

(10).获取兄弟节点

4.标准选择器

find_all (name,attrs,recursive,text,**kwargs)

可根据标签名,属性,内容查找文档

(1)name

输出ul标签里的所有li标签

(2)attrs

结果:

(3)text:根据文本的内容进行选择

5.find方法:(name,attrs,recursive,text,**kwargs)

find方法返回单个元素,find-all返回所有元素

其他的用法类似

6.CSS选择器:通过select()直接传入css选择器即可完成选择

(1)获取属性

(2)获取内容(标签里的文本)

总结:

推荐使用lxml解析库,必要是选用html.parser

标签选择功能弱,但速度快

建议使用find(),find-all()查询匹配单个或多个结果

如果对css选择器熟悉,建议使用select()

记住常用的获取属性和文本值的方法。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值