Python正则表达式实现轻量级Markdown转HTML

原创于 2025-09-28 10:19:15 发布 · 990 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式 #html #pip

Python 专栏收录该内容

101 篇文章

订阅专栏

文章目录

Python正则表达式实现轻量级Markdown转HTML

Python正则表达式实现轻量级Markdown转HTML

引言

在现代内容创作与展示中，Markdown与HTML的转换是一项基础且重要的技术需求。Markdown以其简洁易读的语法深受开发者喜爱，而HTML则是网页内容展示的标准格式。本文将详细解析一个轻量级Markdown到HTML转换器的实现过程，探讨其核心功能模块、技术选型与代码架构设计。

该转换器支持标题、代码块、有序列表、无序列表、加粗、斜体和链接等基础元素的转换，采用模块化设计，代码结构清晰，易于扩展与维护。

核心功能与实现思路

整体架构设计

转换器采用"提取-转换-还原"的三段式处理流程：

先提取特殊元素（如代码块）并替换为占位符
依次处理各类Markdown元素（标题、列表、行内格式等）
还原特殊元素并进行最终格式化

这种设计避免了特殊内容（如代码块）被其他转换规则误处理，确保转换准确性。

模块解析

1. 代码块提取与还原模块

代码块是Markdown中最特殊的元素之一，需要完整保留其原始格式，不被其他转换规则影响。实现方式如下：

# 提取代码块并替换为唯一占位符
code_blocks = []
code_placeholders = []

def extract_code_blocks(match):
    placeholder = f"__CODE_BLOCK_{uuid.uuid4().hex}__"
    code_lang = match.group(1) or ""
    code_content = match.group(2)
    code_blocks.append((placeholder, code_lang, code_content))
    code_placeholders.append(placeholder)
    return placeholder

# 使用正则提取代码块
html_text = re.sub(
    r'```(.*?)\n(.*?)\n```',
    extract_code_blocks,
    html_text,
    flags=re.DOTALL
)

代码块还原则在所有其他转换完成后进行：

# 还原代码块
for placeholder, code_lang, code_content in code_blocks:
    code_html = f'<pre><code class="language-{code_lang}">{code_content}</code></pre>'
    html_text = html_text.replace(placeholder, code_html)

这种"先提取后还原"的策略确保了代码块内容的完整性，避免了代码中的特殊符号（如#、*）被误解析为Markdown语法。

2. 标题转换模块

标题转换通过匹配#的数量来确定标题级别（1-6级）：

html_text = re.sub(
    r'^(#{1,6})\s+(.*)$',
    lambda m: f'<h{len(m.group(1))}>{m.group(2)}</h{len(m.group(1))}>',
    html_text,
    flags=re.MULTILINE
)

正则表达式^(#{1,6})\s+(.*)$匹配以1-6个#开头的行，通过len(m.group(1))获取标题级别，实现了简洁高效的转换。

3. 列表转换模块

列表转换分为无序列表和有序列表两种，核心挑战是确保同层级的列表项被正确包裹在同一个列表容器中。

无序列表转换：

html_text = re.sub(
    r'^(\s*)[-*]\s+.*?(?=\n\1[^-*]|\Z)',
    lambda m: '<ul>\n' + re.sub(
        r'^\s*[-*]\s+(.*)$',
        r'  <li>\1</li>',
        m.group(0),
        flags=re.MULTILINE
    ) + '\n</ul>',
    html_text,
    flags=re.DOTALL | re.MULTILINE
)

有序列表转换：

html_text = re.sub(
    r'^(\s*\d+\.\s+.*?)(?=\n\s*[^\d.]|\Z)',
    lambda m: '<ol>\n' + re.sub(
        r'^\s*\d+\.\s+(.*)$',
        r'  <li>\1</li>',
        m.group(1),
        flags=re.MULTILINE
    ) + '\n</ol>',
    html_text,
    flags=re.DOTALL | re.MULTILINE
)

两种列表转换均使用了正则表达式的断言功能(?=\n\1[^-*]|\Z)来判断列表的结束位置，确保同层级的列表项被正确分组。

4. 行内元素转换模块

行内元素包括加粗、斜体和链接，采用简单直接的正则替换：

# 转换加粗
html_text = re.sub(r'\*\*(.*?)\*\*', r'<strong>\1</strong>', html_text)

# 转换斜体
html_text = re.sub(r'\*(.*?)\*', r'<em>\1</em>', html_text)

# 转换链接
html_text = re.sub(r'\[(.*?)]\((.*?)\)', r'<a href="\2">\1</a>', html_text)

使用非贪婪匹配.*?确保正确处理同一行内的多个行内元素，避免匹配范围过大。

5. 段落处理模块

段落处理是最后一步，需要为普通文本添加<p>标签，同时避免对已转换的块级元素重复处理：

# 按双换行分割为块
blocks = re.split(r'\n\n+', html_text.strip())
processed_blocks = []
for block in blocks:
    # 已转换的块级元素直接保留
    if re.match(r'^<', block):
        processed_blocks.append(block)
    else:  # 普通文本段落用<p>包裹
        processed_blocks.append(f'<p>{block}</p>')

# 合并所有块
html_text = '\n\n'.join(processed_blocks)

这种基于块的处理方式确保了HTML结构的正确性，符合Web标准。

使用示例与转换效果

以下是一个完整的转换示例，展示了转换器的实际效果：

输入Markdown文本：

# 完整测试

这是第一段文本，包含 ** 加粗 ** 和 * 斜体 *。

这是第二段文本，包含[链接](https://example.com)。

- 无序列表项
- 另一项

# 标题一
## 标题二

```python
permission_bp = Blueprint("permission", __name__, url_prefix="/api")

无序列表1
无序列表2

有序列表1
有序列表2


**转换后的HTML**：
```html
<h1>完整测试</h1>

<p>这是第一段文本，包含 <strong> 加粗 </strong> 和 <em> 斜体 </em>。</p>

<p>这是第二段文本，包含<a href="https://example.com">链接</a>。</p>

<ul>
  <li>无序列表项</li>
  <li>另一项</li>
</ul>

<h1>标题一</h1>

<h2>标题二</h2>

<pre><code class="language-python">permission_bp = Blueprint("permission", __name__, url_prefix="/api")
</code></pre>

<ul>
  <li>无序列表1</li>
  <li>无序列表2</li>
</ul>

<ol>
  <li>有序列表1</li>
  <li>有序列表2</li>
</ol>