使用html2text将HTML转换为纯文本

最新推荐文章于 2025-05-03 09:45:23 发布

原创最新推荐文章于 2025-05-03 09:45:23 发布 · 508 阅读

CC 4.0 BY-SA版权

文章标签：

在现代Web开发中，我们常常需要将HTML内容转换为易读的纯文本格式，而Python中的html2text库就是一个非常方便的工具。它不仅将HTML转换为干净易读的ASCII文本，该ASCII文本也是合法的Markdown格式，这意味着它可以直接用于Markdown的文本处理应用中。

技术背景介绍

HTML是一种用于在Web浏览器中显示内容的标记语言，其特性是包括大量的标记符号来定义文本的结构。而在许多情况下，如邮件分析、文本处理等场景中，我们需要从HTML中提取出纯文本内容，这就需要使用到HTML到文本的转换工具。

核心原理解析

html2text通过解析HTML文档，然后利用标记规则将其转换为纯文本。其核心是能够正确识别HTML结构并保留文本内容的语义，同时丢弃HTML的布局和格式信息。

代码实现演示

以下是一个关于如何使用html2text库的具体示例代码：

# 首先确保安装了html2text库
# pip install html2text

import html2text

def html_to_text(html_content):
    # 创建html2text的转换器
    text_maker = html2text.HTML2Text()
    # 禁用标记的换行特性以避免不必要的段落分隔
    text_maker.ignore_links = True
    # 将HTML内容转换为纯文本
    plain_text = text_maker.handle(html_content)
    return plain_text

# 示例HTML内容
html_content = """
<html>
    <head><title>Sample Page</title></head>
    <body>
        <h1>Welcome to Sample Page</h1>
        <p>This page is used to demonstrate html2text conversion.</p>
    </body>
</html>
"""

# 执行转换
text_output = html_to_text(html_content)

print(text_output)