Python网络爬虫与信息提取【BeautifulSoup (“美味的汤”)库的安装与用法】

本文介绍了Python中的BeautifulSoup库,用于HTML和XML文档的解析。讲解了BeautifulSoup的安装方法,包括命令行安装和手动安装。接着,文章详细阐述了库的基本元素、HTML内容遍历的下行、上行和平行遍历方式,以及如何通过prettify()方法进行格式化和编码处理。最后,讨论了信息标记的三种形式:XML、JASON和YAML,及其各自的特点和应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.Beautiful Soup库的安装

Beautiful Soup库是解析、遍历、维护“标签树”的功能库
1.Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。
2.它提供简单而又常用的导航(navigating),搜索以及修改剖析树的操作。可以节省你的编程时间。
BeautifulSoup库本身解析的是html和xml文档,那么这个文档与标签树是一一对应的,经过了BeautifulSoup类的处理,html或xml文档这样的标签树,就被转换成一个BeautifulSoup类。BeautifulSoup类就是能够代表标签树的一个类型。
安装方式一:"windows+R"输入cmd,在命令行中输入 pip install beautifulsoup4安装完成后可以通过from bs4 import BeautifukSoup进行检测,不报错,证明安装成功
安装方式二:从官网下载Beautifulsoup的软件包,然后解压,cmd命令行进入解压包目录,输入以下命令安装:python setup.py install在Python3里一定要安装beautifulsoup4的版本,其它版本安装不上的。

import requests
r = requests.get("http://www.baidu.com")
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")
print(soup.prettify())

Beautiful Soup库解析器:

解析器 使用方法 条件
bs4的HTML解析器 BeautifulSoup(mk,‘html.parser’) 安装bs4库
xmI的HTML解析器 BeautifulSoup(mk,‘lxml’) pip install lxml
lxml的XML解析器 BeautifulSoup(mk,‘xml’) pip install lxml
html5lib的解析器 BeautifulSoup(mk, ‘html5lib’) pip install html5lib

2.Beautiful Soup库的基本元素

基本元素 说明
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值