Python Bleach库：安全处理HTML的利器

最新推荐文章于 2025-11-26 15:40:52 发布

原创最新推荐文章于 2025-11-26 15:40:52 发布 · 823 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#python #安全 #html #开发语言 #前端

部署运行你感兴趣的模型镜像

更多Python学习内容：ipengtao.com

在Web应用开发中，处理用户输入的安全性至关重要，特别是当涉及HTML内容时。未经过滤的HTML输入可能会导致跨站脚本攻击（XSS），进而威胁系统安全。为了解决这一问题，Bleach 是一个专为过滤和清理HTML内容而设计的Python库。它能够帮助开发者安全地处理HTML输入，移除不可信的内容，同时保留有用的部分。本文将详细介绍 Bleach 库的安装、主要功能、基础与高级用法及其在实际项目中的应用。

安装

Bleach 是一个轻量级库，可以通过Python的包管理器 pip 快速安装：

pip install bleach

安装成功后，可以通过以下代码验证是否正确安装：

import bleach
print(bleach.__version__)

Bleach 与大多数Web框架兼容，常用于过滤用户输入中的HTML内容，确保Web应用的安全性。

主要功能

Bleach 的主要功能是清理和过滤HTML内容，移除潜在的危险代码如脚本标签和事件处理器。

HTML标签的白名单机制，允许保留特定的安全标签
自动清除潜在的XSS攻击代码
支持自定义属性、协议和标签过滤
提供链接、图像的安全处理机制
支持扩展过滤逻辑，如自定义过滤器

基础功能

清理HTML

Bleach 的最基本功能是清理HTML内容，移除不安全的标签和属性。

以下是一个简单的示例，展示如何使用 Bleach 清理HTML：

import bleach

html_content = '<p>Hello <strong>World</strong>! <script>alert("XSS")</script></p>'
cleaned_content = bleach.clean(html_content)

print(cleaned_content)

输出结果为：

<p>Hello <strong>World</strong>! </p>

在这个示例中，<script> 标签被移除，而安全的  和  标签得以保留。这是因为 Bleach 内置了一个默认的白名单机制，只允许一些常见且安全的HTML标签。

自定义白名单

Bleach 允许开发者自定义HTML标签和属性的白名单，从而控制哪些标签和属性可以保留。

以下是一个自定义白名单的示例：

allowed_tags = ['p', 'strong', 'em']
allowed_attrs = {'a': ['href', 'title']}

html_content = '<p>Hello <strong>World</strong>! <a href="http://example.com" onclick="alert()">Click me</a></p>'
cleaned_content = bleach.clean(html_content, tags=allowed_tags, attributes=allowed_attrs)

print(cleaned_content)

输出结果为：

<p>Hello <strong>World</strong>! <a href="http://example.com">Click me</a></p>

在这个示例中，开发者指定了允许的标签和属性：保留了 、 标签以及 <a> 标签的 href 和 title 属性，而移除了 onclick 属性。

链接化处理

Bleach 还提供了将纯文本中的URL自动转换为可点击链接的功能。这对于处理用户输入的文本内容非常实用，特别是在论坛、博客等应用场景中。

以下是一个使用 linkify() 函数的示例：

import bleach

text = 'Visit http://example.com for more information.'
linked_text = bleach.linkify(text)

print(linked_text)

输出结果为：

Visit <a href="http://example.com">http://example.com</a> for more information.

Bleach 会自动将文本中的URL转换为HTML链接，同时确保生成的链接是安全的。

进阶功能

自定义协议

除了标签和属性外，Bleach 还允许自定义允许的协议。默认情况下，Bleach 仅允许 http、https、mailto 等安全协议。

以下是一个自定义协议的示例：

allowed_protocols = ['http', 'https', 'ftp']

html_content = '<a href="ftp://example.com/file">Download</a>'
cleaned_content = bleach.clean(html_content, protocols=allowed_protocols)

print(cleaned_content)

输出结果为：

<a href="ftp://example.com/file">Download</a>

通过自定义协议列表，开发者可以允许特定的协议用于链接或图像等元素。

自定义过滤器

Bleach 提供了自定义过滤器的支持，开发者可以定义自己的规则来处理HTML内容。

以下是一个简单的自定义过滤器示例，移除特定的内容：

from bleach.sanitizer import Cleaner

def remove_span_tags(attrs, new=False):
    if 'span' in attrs:
        del attrs['span']
    return attrs

html_content = '<p>Hello <span>World</span>!</p>'
cleaner = Cleaner(tags=['p'], attributes={}, filters=[remove_span_tags])

cleaned_content = cleaner.clean(html_content)
print(cleaned_content)

在这个示例中，自定义过滤器 remove_span_tags 用于移除所有的  标签。自定义过滤器使得 Bleach 更加灵活，能够根据特定需求进行内容清理。

安全处理富文本

在处理用户输入的富文本时，确保安全性至关重要。Bleach 能够帮助开发者安全地处理用户输入的富文本，同时保留格式和样式。

以下是一个富文本处理的示例：

allowed_tags = ['p', 'strong', 'em', 'ul', 'li', 'ol']
allowed_attrs = {'a': ['href']}

html_content = '<p>This is <strong>important</strong> text with <a href="http://example.com">a link</a>.</p>'
cleaned_content = bleach.clean(html_content, tags=allowed_tags, attributes=allowed_attrs)

print(cleaned_content)

在这个示例中，Bleach 过滤掉了所有不在白名单中的标签和属性，确保输出的HTML是安全的。

实际应用

Web应用中的输入过滤

Bleach 在Web开发中非常适合用于过滤用户输入，防止跨站脚本攻击（XSS）。

例如，在论坛、博客等允许用户提交HTML内容的应用中，可以使用 Bleach 对所有用户输入进行过滤。

from flask import Flask, request, render_template
import bleach

app = Flask(__name__)

allowed_tags = ['p', 'strong', 'em', 'a']
allowed_attrs = {'a': ['href', 'title']}

@app.route('/submit', methods=['POST'])
def submit():
    content = request.form['content']
    cleaned_content = bleach.clean(content, tags=allowed_tags, attributes=allowed_attrs)
    return render_template('content.html', content=cleaned_content)

在这个Flask示例中，用户提交的内容在存储或展示之前，会先经过 Bleach 的过滤，确保其安全性。

处理用户生成的HTML内容

在现代Web应用中，用户生成的内容（如评论、帖子）通常包含一些HTML标签。如果不对这些内容进行过滤，恶意用户可能会利用这些标签进行攻击。

以下是一个处理用户评论的示例：

comments = [
    '<p>Great post!</p>',
    '<script>alert("XSS Attack!")</script>',
    '<a href="http://example.com" onclick="stealCookies()">Click here</a>'
]

cleaned_comments = [bleach.clean(comment) for comment in comments]

for comment in cleaned_comments:
    print(comment)

通过 Bleach 的过滤，恶意脚本和不安全的HTML属性都被移除，确保了评论的安全性。

安全的富文本编辑器

对于需要实现富文本编辑器功能的应用，Bleach 能够在保存和显示用户输入的HTML时提供安全保护。开发者可以自定义允许的标签和属性，以便用户在编辑器中使用常见的格式化工具，同时避免不安全的内容。

editor_content = '<p>This is <strong>bold</strong> text.</p><script>alert("XSS")</script>'
cleaned_content = bleach.clean(editor_content, tags=['p', 'strong', 'em'], attributes={})

print(cleaned_content)

在这种情况下，用户可以在编辑器中使用安全的HTML标签，而不必担心安全问题。

总结

Bleach 是一个强大的 Python 库，专注于安全过滤和清理HTML内容，帮助开发者防止跨站脚本攻击（XSS）等安全漏洞。在处理用户生成的HTML时，Bleach 能够通过白名单机制，允许保留指定的安全标签和属性，同时移除潜在的危险内容。它还支持自定义过滤器、协议和标签处理，使其在Web开发中应用广泛。无论是构建富文本编辑器、处理用户评论，还是过滤表单输入，Bleach 都能够提供灵活且强大的解决方案，确保Web应用的安全性和稳定性。

如果你觉得文章还不错，请大家点赞、分享、留言下，因为这将是我持续输出更多优质文章的最强动力！

我们还为大家准备了Python资料，感兴趣的小伙伴快来找我领取一起交流学习哦！

往期推荐

Python基础学习常见的100个问题.pdf（附答案）

Python办公自动化完全指南(免费PDF)

Python Web 开发常见的100个问题.PDF

Beautiful Soup快速上手指南，从入门到精通(PDF下载)

124个Python案例，完整源代码！

80个Python数据分析必备实战案例.pdf(附代码)，完全开放下载

120道Python面试题.pdf ，完全版开放下载

全网最全 Pandas的入门与高级教程全集，都在这里了！(PDF下载)

点击下方“阅读原文”查看更多

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率