从0到1掌握BS4，让你的Python爬虫效率提升10倍-优快云博客

文章目录

从0到1掌握BS4，让你的Python爬虫效率提升10倍

从0到1掌握BS4，让你的Python爬虫效率提升10倍

BeautifulSoup4（简称BS4）是Python中最流行的HTML和XML解析库，它能够将复杂的HTML文档转换为树形结构，提供了简单而直观的API来遍历、搜索和修改这个树结构。

一、功能详细介绍

BS4的核心功能包括：

解析文档：支持HTML和XML解析，自动修复不规范的标记
导航树：提供多种方式在解析树中导航和搜索
搜索文档：强大的查找功能，可以按标签名、属性、文本内容等搜索
修改文档：支持添加、删除和修改标签及内容
输出文档：可以将修改后的文档重新生成字符串

BS4本身不具备网页下载功能，通常与requests库配合使用，先用requests获取网页内容，再用BS4解析。

二、入门使用

安装

pip install beautifulsoup4
pip install lxml  # 推荐的解析器，速度快且功能强

基本用法

from bs4 import BeautifulSoup
import requests

# 获取网页内容
response = requests.get('https://example.com')
html_content = response.text

# 创建BeautifulSoup对象
soup = BeautifulSoup(html_content, 'lxml')  # 使用lxml解析器

# 打印格式化的HTML
print(soup.prettify())

三、核心功能详解与代码示例

from bs4 import BeautifulSoup

# 示例HTML文档
html_doc = """
<html><head><title>示例页面</title></head>
<body>
<p class="title"><b>首页</b></p>

<p class="story">这是一个故事的开头
<a href="http://example.com/link1" class="sister" id="link1">第一个链接</a>
<a href="http://example.com/link2" class="sister" id="link2">第二个链接</a>
<a href="http://example.com/link3" class="sister" id="link3">第三个链接</a>
</p>

<p class="story">...</p>
</body>
</html>
"""

# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'lxml')

# 1. 基本导航
print("1. 基本导航示例:")
print("标题标签内容:", soup.title.string)
print("第一个p标签:", soup.p)
print("p标签的class属性:", soup.p['class'])
print("第一个a标签的href属性:", soup.a['href'])
print()

# 2. 查找标签
print("2. 查找标签示例:")
# 查找所有a标签
all_links = soup.find_all('a')
print(f"找到{len(all_links)}个a标签:")
for link in all_links:
    print(f"  文本: {link.string}, URL: {link.get('href')}")

# 按id查找
link2 = soup.find(id="link2")
print(f"id为link2的标签文本: {link2.string}")

# 按class查找（注意class是关键字，所以用class_）
title_p = soup.find('p', class_='title')
print(f"class为title的p标签内容: {title_p.b.string}")
print()

# 3. CSS选择器
print("3. CSS选择器示例:")
# 选择所有class为sister的a标签
sister_links = soup.select("a.sister")
print(f"找到{len(sister_links)}个class为sister的a标签:")
for link in sister_links:
    print(f"  {link.string}")

# 选择id为link3的标签
link3 = soup.select_one("#link3")
print(f"id为link3的标签的href: {link3['href']}")

# 选择p标签内的b标签
p_b = soup.select("p.title b")
print(f"p.title下的b标签内容: {p_b[0].string}")
print()

# 4. 遍历文档树
print("4. 遍历文档树示例:")
# 遍历body下的所有子节点
body = soup.body
print("body的子节点:")
for child in body.children:
    if child.name:  # 只打印有名称的节点（标签）
        print(f"  标签: {child.name}")

# 遍历所有后代a标签
print("所有a标签:")
for a in body.descendants:
    if a.name == 'a':
        print(f"  {a.string}")
print()

# 5. 修改文档
print("5. 修改文档示例:")
# 修改标签内容
first_link = soup.a
first_link.string = "修改后的第一个链接"
print(f"修改后的第一个链接文本: {first_link.string}")

# 添加新属性
first_link['new_attr'] = '新属性值'
print(f"添加新属性后的第一个链接: {first_link}")

# 创建新标签并添加到文档
new_tag = soup.new_tag('a', href='http://example.com/newlink')
new_tag.string = '新链接'
body.append(new_tag)
print("添加新标签后的所有a标签:")
for a in soup.find_all('a'):
    print(f"  {a.string}")

四、高级用法

1. 处理复杂选择条件

# 查找href包含"example"且class为"sister"的a标签
links = soup.find_all('a', {'class': 'sister', 'href': lambda x: x and 'example' in x})

2. 正则表达式搜索

import re

# 查找所有以b开头的标签
tags = soup.find_all(re.compile('^b'))

# 查找文本包含"链接"的标签
text_tags = soup.find_all(text=re.compile('链接'))

3. 自定义过滤器

# 自定义过滤器：查找有两个属性的标签
def has_two_attrs(tag):
    return len(tag.attrs) == 2

tags = soup.find_all(has_two_attrs)

4. 处理大型文档

对于大型文档，可以使用lxml的迭代解析模式，避免一次性加载整个文档到内存：

from lxml import etree
from bs4 import BeautifulSoup

parser = etree.HTMLParser()
for event, element in etree.iterparse('large_file.html', parser=parser):
    # 转换为BeautifulSoup对象处理当前元素
    soup = BeautifulSoup(etree.tostring(element), 'lxml')
    # 处理元素
    # ...
    element.clear()  # 清理已处理的元素，释放内存

五、最佳实践

选择合适的解析器：
- lxml：速度快，容错性好（推荐）
- html5lib：最接近浏览器的解析方式，但速度较慢
- html.parser：Python内置，无需额外安装，但功能有限
设置合理的请求头：

headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)

处理编码问题：

# 让BS4自动检测编码
soup = BeautifulSoup(response.content, 'lxml')  # 使用content而非text

限制请求频率：

import time

# 每次请求后等待1秒
time.sleep(1)

使用会话保持：

session = requests.Session()
# 后续请求使用session.get()而非requests.get()

六、注意事项

遵守网站robots.txt规则：尊重网站的爬取政策
注意法律和伦理问题：
- 不要爬取受版权保护的内容
- 不要爬取个人隐私信息
- 避免对网站服务器造成过大负担
处理动态内容：
- BS4无法解析JavaScript动态生成的内容
- 遇到动态内容时，考虑使用Selenium或Pyppeteer
异常处理：

try:
   response = requests.get(url, timeout=10)
   response.raise_for_status()  # 抛出HTTP错误
except requests.exceptions.HTTPError as e:
   print(f"HTTP错误: {e}")
except requests.exceptions.Timeout:
   print("请求超时")
except requests.exceptions.RequestException as e:
   print(f"请求异常: {e}")