BeautifulSoup是一个很简单又好用的库,不过解析速度相对比较慢,使用如下:
1,安装
pip install bs4 (被加到了bs4中) #python3用pip3 install bs4 ,如果有权限问题,可以试试,pip install bs4 --user
2,导包
from bs4 import BeautifulSoup
3,使用代码
from bs4 import BeautifulSoup
html = '''
<li> aaa</li>
<li class = "name">bbb</li>
'''
soup = BeautifulSoup(html,features = "lxml")
li = soup.findAll('li',class_='name') #找到所有class为name的li标签
for i in li:
print(i.attrs['class']) #输出name,同理可以得到所有的属性内容
print(i.string) #输出bbb,可以得到文本内容
最简单的使用就是这样。
本文介绍如何使用BeautifulSoup库解析HTML文档,包括安装方法、基本使用步骤和代码示例,展示了如何查找特定元素和获取其属性及文本内容。
1056

被折叠的 条评论
为什么被折叠?



