HtmlRAG：HTML格式提升RAG系统检索效果-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00512/article/details/146564451

HtmlRAG：HTML格式提升RAG系统检索效果

HtmlRAG HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieval Results in RAG Systems (WWW 2025) 项目地址: https://gitcode.com/gh_mirrors/ht/HtmlRAG

项目介绍

HtmlRAG是一个开源项目，致力于在检索增强生成（Retrieval-Augmented Generation，RAG）系统中使用HTML而非纯文本作为外部知识的格式。传统的RAG系统在处理长篇上下文时存在效率问题，HtmlRAG通过提出无损HTML清洗（Lossless HTML Cleaning）和两阶段块树基于的HTML剪枝（Two-Step Block-Tree-Based HTML Pruning）来解决这一问题。这一创新的方法不仅保留了HTML文档中的所有语义信息，还提高了生成过程的效率和准确性。

项目技术分析

HtmlRAG的核心技术包括两部分：

无损HTML清洗：该过程仅移除完全无关的内容并压缩冗余结构，保留了原始HTML中的所有语义信息。这种清洗后的HTML适合于具有长上下文LLM（大型语言模型）的RAG系统，且不愿意在生成前丢失任何信息。
两阶段块树基于的HTML剪枝：该剪枝方法包括两个步骤，均在块树结构上进行。第一步使用嵌入模型为块计算得分，第二步使用路径生成模型。第一步处理无损HTML清洗的结果，第二步处理第一步剪枝的结果。