RAG数据处理：PDF/HTML

原创已于 2025-05-18 22:05:44 修改 · 2.1k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型

于 2025-05-16 11:36:52 首次发布

RAG而言用户输入的数据通常是各种各样文档，本文主要讲述对比现主流的PDF/HTML文档的处理方法

PDF文档解析

PDF文档很常见格式，但内部结构常常较复杂：

复杂的版式布局
多样的元素（段落、表格、公式、图片等）
文本流无法直接获取
特殊元素如页眉页脚、侧边栏

主流分为两类：

基于规则匹配（实战不常用，效果差）

一、基于规则的解析

效果较差，不能识别表格。不需GPU。适合文本密集型pdf
知名三方库：

PyPDF2 对英文支持较好，但中文支持较差，不能识别表格
pdfplumber 对中文支持较好，且在表格解析方面表现优秀，但对双拦文本的解析能力较差
papermage集成了pdfminer 和其他工具，特引适合处理论文场景

代码示例-PyMuPDF

# 使用LangChain的PyMuPDFLoader
from langchain.document_loaders import PyMuPDFLoader

loader = PyMuPDFLoader("example.pdf")
documents = loader.load()

# 直接使用PyMuPDF进行高级解析
import fitz  # PyMuPDF

# 打开PDF
doc = fitz.open("example.pdf")

# 提取所有文本（按页）
for page_num, page in enumerate(doc):
    text = page.get_text()
    print(f"页面 {page_num + 1}:\n{text}\n")

# 提取表格
for page_num, page in enumerate(doc):
    tables = page.find_tables()
    for i, table in enumerate(tables):
        # 转换为pandas DataFrame
        df = table.to_pandas()
        print(f"页面 {page_num + 1}, 表格 {i + 1}:\n{df}\n")

# 提取图片
for page_num, page in enumerate(doc):
    image_list = page.get_images(full=True)
    for img_index, img in enumerate(image_list):
        xref = img[0]  # 图片的xref（引用号）
        image = doc.extract_image(xref)
        # 可以保存图片或进行进一步处理
        print(f"页面 {page_num + 1}, 图片 {img_index + 1}: {image['ext']}")

二、基于深度学习解析

效果较好主流，主要处理含有非结构化数据。需GPU
知名三方库：

代码示例-MinerU

代码示例-unstructured

from unstructured.partition.auto import partition

# 自动识别文件格式并解析
elements = partition("document.pdf")  # 也可以是docx, pptx, html等

# 提取所有文本元素
text_elements = [el for el in elements if hasattr(el, "text")]
for element in text_elements:
    print(element.text)

# 根据元素类型处理
from unstructured.partition.html import partition_html
from unstructured.chunking.title import chunk_by_title

# HTML特定解析
html_elements = partition_html("document.html")

# 按标题分块
chunks = chunk_by_title(elements)
for chunk in chunks:
    print(f"标题: {chunk.title}")
    print(f"内容: {chunk.text}")

三、基于多模态大模型的PDF处理

效果好但涉及信息泄露风险。无需GPU，适合快速处理少量PDF文件。

HTML文档解析

HTML是网页的标准标记语言，包含文本、图片、视频等多种内容，通过不同标签组织。

常用解析工具

Beautiful Soup：Python中最常用的HTML解析库，能通过标签和CSS选择器精确提取内容。
LangChain中的解析器：
- WebBaseLoader：结合urllib和Beautiful Soup，先下载HTML再解析
- BSHTMLLoader：直接解析本地HTML文件

代码示例

# 使用LangChain的WebBaseLoader解析网页
from langchain.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://example.com")
documents = loader.load()

# 使用Beautiful Soup定制解析
from bs4 import BeautifulSoup
import requests

response = requests.get("https://example.com")
soup = BeautifulSoup(response.text, "html.parser")

# 提取所有代码块
code_blocks = soup.find_all("div", class_="highlight")
for block in code_blocks:
    print(block.get_text())

# 提取所有标题和段落
content = []
for heading in soup.find_all(["h1", "h2", "h3"]):
    content.append({"type": "heading", "text": heading.get_text()})
    # 获取标题后的段落
    for p in heading.find_next_siblings("p"):
        if p.find_next(["h1", "h2", "h3"]) == p:
            break
        content.append({"type": "paragraph", "text": p.get_text()})

进阶技巧

对于复杂的HTML页面，可以考虑以下策略：

使用CSS选择器精确定位元素
识别并过滤导航栏、广告等无关内容
保留文档结构（标题层级关系）
特殊处理表格、代码块等结构化内容

基于深度学习的通用文档解析：以DeepDoc为例

传统的解析方法各有局限，近年来基于深度学习的文档解析技术取得了突破性进展。DeepDoc（来自RapidocAI）是一个典型代表，它采用机器视觉方式解析文档。

DeepDoc的工作流程

文档转图像：将PDF等文档转换为图像
OCR文本识别：识别图像中的文本内容
布局分析：使用专门模型识别文档布局结构
表格识别与解析：使用TSR（Table Structure Recognition）模型解析表格
内容整合：将识别的各部分内容整合成结构化数据

代码示例

# 使用DeepDoc进行文档解析
from rapidocr import RapidOCR
from deepdoc import LayoutAnalyzer, TableStructureRecognizer

# 初始化模型
ocr = RapidOCR()
layout_analyzer = LayoutAnalyzer()
table_recognizer = TableStructureRecognizer()

# 文档OCR
image_path = "document.png"  # 可以是PDF转换的图像
ocr_result = ocr.recognize(image_path)
texts, positions = ocr_result

# 布局分析
layout_result = layout_analyzer.analyze(image_path)
# 识别出的布局元素：标题、段落、表格、图片等
elements = layout_result["elements"]

# 处理识别到的表格
for element in elements:
    if element["type"] == "table":
        table_image = element["image"]
        # 表格结构识别
        table_result = table_recognizer.recognize(table_image)
        # 表格数据可转换为CSV或DataFrame
        table_data = table_result["data"]

# 整合所有内容
document_content = []
for element in sorted(elements, key=lambda x: x["position"]):
    if element["type"] == "title":
        document_content.append({"type": "title", "text": element["text"]})
    elif element["type"] == "paragraph":
        document_content.append({"type": "paragraph", "text": element["text"]})
    elif element["type"] == "table":
        document_content.append({"type": "table", "data": element["table_data"]})
    # 其他类型元素...

DeepDoc的优势

多格式支持：可处理PDF、Word、Excel、PPT、HTML等多种格式
结构保留：准确识别文档的层次结构和布局
表格处理：精确解析复杂表格，包括合并单元格
图像处理：可提取和关联文档中的图像内容
多语言支持：支持中英文等多种语言的文档解析

构建文档处理管道

在实际的RAG系统中，我们通常需要构建完整的文档处理管道，将解析、清洗、分块等步骤串联起来。

完整处理流程示例

import os
from typing import List, Dict, Any
from langchain.document_loaders import PyMuPDFLoader, WebBaseLoader, UnstructuredExcelLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

def process_document(file_path: str) -> List[Dict[str, Any]]:
    """处理各种格式的文档，返回标准化的文档块"""
    # 根据文件扩展名选择合适的加载器
    ext = os.path.splitext(file_path)[1].lower()
    
    if ext == ".pdf":
        loader = PyMuPDFLoader(file_path)
    elif ext == ".html" or ext == ".htm":
        # 假设是本地HTML文件
        with open(file_path, "r", encoding="utf-8") as f:
            content = f.read()
        loader = WebBaseLoader(file_path)
    elif ext in [".xlsx", ".xls"]:
        loader = UnstructuredExcelLoader(file_path)
    else:
        # 对于其他格式，使用Unstructured
        from langchain.document_loaders import UnstructuredFileLoader
        loader = UnstructuredFileLoader(file_path)
    
    # 加载文档
    documents = loader.load()
    
    # 文本清洗（去除多余空格、特殊字符等）
    cleaned_documents = []
    for doc in documents:
        text = doc.page_content
        # 基本清洗
        text = text.replace("\n\n", " ").replace("\t", " ")
        text = ' '.join(text.split())  # 规范化空格
        
        # 更新文档
        doc.page_content = text
        cleaned_documents.append(doc)
    
    # 文本分块
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
        separators=["\n\n", "\n", ". ", " ", ""]
    )
    chunks = text_splitter.split_documents(cleaned_documents)
    
    # 转换为标准格式
    processed_chunks = []
    for chunk in chunks:
        processed_chunks.append({
            "text": chunk.page_content,
            "metadata": chunk.metadata,
            "source": file_path,
            "chunk_id": f"{os.path.basename(file_path)}_{chunks.index(chunk)}"
        })
    
    return processed_chunks

# 使用示例
pdf_chunks = process_document("example.pdf")
html_chunks = process_document("example.html")
excel_chunks = process_document("example.xlsx")

# 合并所有文档的处理结果
all_chunks = pdf_chunks + html_chunks + excel_chunks

# 现在可以将这些块用于向量化和索引