Markdig项目解析：深入理解Markdown抽象语法树(AST)-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00826/article/details/148508861

Markdig项目解析：深入理解Markdown抽象语法树(AST)

markdig 项目地址: https://gitcode.com/gh_mirrors/mar/markdig

什么是Markdown抽象语法树

在Markdig解析器中，当调用Markdown.Parse(...)方法成功解析Markdown文本后，会返回一个抽象语法树(AST)结构。这个结构以MarkdownDocument类型对象作为根节点，它继承自更通用的块容器类型，构成了Markdown语义结构的完整表示体系。

AST的核心结构

Markdig的AST由两种基本节点类型构成：

块元素(Block)：代表段落、标题、列表等结构性内容
行内元素(Inline)：代表强调文本、链接、图片等内联内容

它们之间的关系遵循以下规则：

块元素可以包含其他块元素或行内元素
行内元素只能包含其他行内元素
根节点MarkdownDocument是一个特殊的块容器

AST遍历方法

Markdig提供了一组强大的Descendants扩展方法，支持多种遍历方式：

1. 深度优先遍历

var document = Markdown.Parse(markdownText);
foreach (var node in document.Descendants())
{
    // 处理每个节点
    if (node is HeadingBlock heading)
    {
        // 处理标题块
    }
}

2. 类型过滤遍历

// 查找所有列表项
foreach (var item in document.Descendants<ListItemBlock>())
{
    // 处理列表项
}

// 查找所有图片链接
foreach (var img in document.Descendants<LinkInline>().Where(x => x.IsImage))
{
    // 处理图片
}

3. 层级组合查询

// 查找列表项中的强调文本
var emphases = document.Descendants<ListItemBlock>()
                     .SelectMany(block => block.Descendants<EmphasisInline>());

块元素详解

块元素分为两大类：

容器块(ContainerBlock)：可以包含其他块的块元素
叶子块(LeafBlock)：不能包含其他块，但可以包含行内元素

关键属性说明

Parent：指向父容器的引用（根节点为null）
Parser：创建该块的解析器实例
IsOpen：标记块是否仍在解析中
IsBreakable：决定父容器是否可以在此块未关闭时结束

行内元素特点

行内元素分为：

普通行内元素(Inline)：如强调文本、链接等
行内容器(ContainerInline)：可以包含其他行内元素

所有行内元素都有一个ParentBlock属性，指向其所属的叶子块。

源代码位置追踪

当启用.UsePreciseSourceLocation()配置时，AST中的每个节点都会包含其在原始文本中的位置信息：

var pipeline = new MarkdownPipelineBuilder()
               .UsePreciseSourceLocation()
               .Build();
var document = Markdown.Parse(text, pipeline);

// 获取节点在源文本中的位置
var span = someNode.Span;  // 返回SourceSpan结构