Beautifulsoup常见用法

网页解析利器

最新推荐文章于 2025-10-09 07:35:17 发布

转载最新推荐文章于 2025-10-09 07:35:17 发布 · 430 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/kikaylee/article/details/56841789

文章标签：

#Beautifulsoup #python

python 专栏收录该内容

6 篇文章

订阅专栏

本文介绍四种常用的网页解析库：Python标准库、lxml HTML/XML解析库和htm5lib解析库，对比了它们的速度、容错能力和使用场景。同时，详细讲解了如何使用BeautifulSoup结合这些解析库，以及find()和find_all()方法的用法，包括过滤器的多种类型和CSS选择器的使用技巧。

序号	解析库	使用方法	优势	劣势
1	Python标准库	BeautifulSoup(html,’html.parser’)	Python内置标准库；执行速度快	容错能力较差
2	lxml HTML解析库	BeautifulSoup(html,’lxml’)	速度快；容错能力强	需要安装，需要C语言库
3	lxml XML解析库	BeautifulSoup(html,[‘lxml’,’xml’])	速度快；容错能力强；支持XML格式	需要C语言库
4	htm5lib解析库	BeautifulSoup(html,’htm5llib’)	以浏览器方式解析，最好的容错性	速度慢

创建对象

import requests as re
from bs4 import BeautifulSoup as bs

web=re.get("http://www.xbiquge.la/13/13959/")
web.encoding="utf8"
soup=bs(web.text,"lxml")

搜索文档树

常使用两种方法find()和find_all()，过滤器包括：纯字符串、正则表达式、列表、True、方法这几种。

find_all(name,attrs,recursive,text,limit,keywords)

该方法搜索当前节点的所有tag子节点。

name参数：
指的是tag的name属性，字符串对象自动忽略。
过滤器可以使用全部种类。

keywords参数：
如果一个入参指定了名字，但是并不是上述提到的入参名字，搜索时会把该入参当做是tag的属性来搜索。例如：

soup.find_all(id='link2')

会返回tag中存在属性id，并且id对应的值是link2的tag。
以上方法可使用除方法之外的所有过滤器。

某些特殊属性不能这样直接使用，则使用如下方法：

soup.find_all(attrs={"key":"value"})

例如要使用class属性进行搜索，由于class是python中的保留字，不能直接写成入参，目前有两种方法：

soup.find_all('tag.name',class_='class_value')
soup.find_all('tag.name',attrs={'class':'class_value'})

class_方法可以使用全部过滤器。
另外，因为class是一个多值属性，所以只需要匹配一个值，就可以得到结果，所谓的不完全匹配。
使用完全匹配时，过滤器中的字符顺序需要和实际相符合才能得到对应结果。

find(name,attrs,recursive,text,keywords)

find()方法等价于find_all(limit=1)，返回符合条件的第一个对象。
区别在于，前者直接返回结果，后者返回只有一个元素的列表。若没有对象符合条件，前者返回None，后者返回空列表。

它也有简化版：

soup.find('head').find('title')
soup.head.title

CSS选择器

可以采用CSS的语法格式来筛选元素：

#标签选择器
print soup.select('a')
#类名选择器
print soup.select('.css')
#id选择器
print soup.select('#css')
#属性选择器
print soup.select('img[width="160"]')