轻松提取HTML各种标签中的中文内容，用这个函数，Python小白也能搞定！-优快云博客

本文链接：https://blog.youkuaiyun.com/kylner/article/details/146972657

🌟 轻松提取HTML中的中文内容，Python小白也能搞定！

嘿，小伙伴们！👋

今天，我要给大家分享一个超实用的小技巧，让你用Python轻松提取HTML中的中文内容。是不是听起来很厉害？别担心，这个技巧超级简单，就算是Python小白也能轻松上手！🎉

🤔 你有没有遇到过这样的烦恼？

当你在爬取网页内容时，是不是经常被一大堆HTML标签搞得头大？比如，你只想提取网页中的中文文字，但那些乱七八糟的<div>、<span>、<a>标签却总是干扰你。别担心，今天我带来的这个小函数，就能帮你轻松解决这个问题！

🧩 代码解析：提取HTML中的中文内容

先来看看这个神奇的函数：

def extract_chinese_from_html(html):
    # 使用正则表达式匹配html中的中文字符
    chinese_pattern = re.compile('>.*?([\u4e00-\u9fa5].*?[\u4e00-\u9fa5].*?)</', re.S)
    chinese_list = chinese_pattern.findall(html)
    # 将中文字符列表转换为字符串
    chinese_str = ''.join(chinese_list)
    # 去掉中文字符前后的html标签
    clean_pattern = re.compile('<.*?>')
    clean_str = re.sub(clean_pattern, '', chinese_str)
    return clean_str

1️ 这段代码在做什么？

简单来说，它就是从HTML代码中提取中文内容，并去掉多余的HTML标签。听起来是不是很神奇？其实原理很简单，我们用到了Python的re模块（正则表达式模块）。

chinese_pattern：这是一个正则表达式，用来匹配HTML中的中文字符。\u4e00-\u9fa5是中文字符的Unicode范围，>.*?([\u4e00-\u9fa5].*?[\u4e00-\u9fa5].*?)</的意思是找到两个标签之间的中文内容。
findall：这个方法会找到所有匹配的内容，并返回一个列表。
re.sub(clean_pattern, '', chinese_str)：这一步是去掉中文字符前后的HTML标签，让内容更加干净。

2️ 举个例子

假设我们有这样一段HTML代码：

<div>这是一段测试文本</div>
<p>欢迎来到我的公众号</p>

使用这个函数后，提取出来的内容就是：

这是一段测试文本欢迎来到我的公众号

是不是很神奇？而且代码非常简洁，只有几行！🎉

🎉 完整代码的应用场景

这个小函数的应用场景非常广泛，比如：

爬取网页内容：当你需要从网页中提取中文信息时，这个函数可以帮你快速清理HTML标签。
数据清洗：在数据分析中，经常需要从网页中提取数据。这个函数可以帮你快速提取中文内容，方便后续处理。
文本分析：如果你需要对网页中的中文文本进行分析（比如情感分析、关键词提取），这个函数可以帮你快速提取纯文本内容。

🚀 基于这个代码的扩展实现

示例 1：提取HTML中的所有文本内容

如果你想提取HTML中的所有文本内容，而不仅仅是中文，可以稍微修改一下代码：

def extract_all_text_from_html(html):
    # 使用正则表达式匹配html中的所有文本内容
    text_pattern = re.compile('>(.*?)<', re.S)
    text_list = text_pattern.findall(html)
    # 将文本内容列表转换为字符串
    text_str = ''.join(text_list)
    return text_str

这段代码会提取HTML中所有的文本内容，包括中文、英文、数字等，非常适合需要提取完整文本的场景。

示例 2：提取HTML中的特定标签内容

有时候，你可能只想提取HTML中某个特定标签的内容，比如<p>标签。可以这样实现：

def extract_specific_tag_content(html, tag_name):
    # 使用正则表达式匹配指定标签的内容
    tag_pattern = re.compile(f'<{tag_name}.*?>(.*?)</{tag_name}>', re.S)
    tag_content_list = tag_pattern.findall(html)
    # 将内容列表转换为字符串
    tag_content_str = ''.join(tag_content_list)
    return tag_content_str

使用这个函数时，只需要指定tag_name参数，比如extract_specific_tag_content(html, 'p')，它就会提取所有<p>标签的内容。

🎁 总结

今天，我们分享了一个超实用的小技巧——提取HTML中的中文内容。这个函数不仅简单易懂，而且应用场景非常广泛。你可以用它来爬取网页内容、清洗数据，甚至扩展为提取特定标签的内容。

如果你是Python小白，也不用担心。这个函数只有几行代码，很容易上手。快去试试吧，说不定你就能用它解决一个大问题呢！🎉

如果你对这个技巧感兴趣，或者有任何问题，欢迎留言讨论哦！

完整代码

# 定义一个函数，用于提取html中的中文字符，并去掉中文字符前后的html标签
def extract_chinese_from_html(html):
    # 使用正则表达式匹配html中的中文字符
    chinese_pattern = re.compile('>.*?([\u4e00-\u9fa5].*?[\u4e00-\u9fa5].*?)</', re.S)
    chinese_list = chinese_pattern.findall(html)
    # 将中文字符列表转换为字符串
    chinese_str = ''.join(chinese_list)
    # 去掉中文字符前后的html标签
    clean_pattern = re.compile('<.*?>')
    clean_str = re.sub(clean_pattern, '', chinese_str)
    return clean_str