告别低效文档处理！Umi-OCR内容提取模式全解析-优快云博客

告别低效文档处理！Umi-OCR内容提取模式全解析

【免费下载链接】Umi-OCR Umi-OCR: 这是一个免费、开源、可批量处理的离线OCR软件，适用于Windows系统，支持截图OCR、批量OCR、二维码识别等功能。项目地址: https://gitcode.com/GitHub_Trending/um/Umi-OCR

你是否还在为PDF扫描件无法复制文字而烦恼？是否因截图中的代码无法编辑而抓狂？Umi-OCR作为一款免费开源的离线OCR工具，不仅支持基础的文字识别，更提供了多种智能内容提取模式，让文档处理效率提升300%。本文将深入解析Umi-OCR的四大核心提取模式，带你轻松应对各类文档场景。

一、全场景内容提取模式概览

Umi-OCR提供四种内容提取模式，覆盖从简单截图到复杂PDF的全场景需求。通过灵活配置这些模式，可大幅减少后期编辑工作量。

核心模式对比：

模式名称	适用场景	处理逻辑	典型应用
混合OCR/原文本	图文混排文档	智能区分图片与文本区域	学术论文、杂志
整页强制OCR	纯图片扫描件	全页识别转换为文本	古籍扫描件、老照片
仅OCR图片	含少量插图文档	只处理文档中的图片元素	带图表的报告
仅拷贝原有文本	可复制PDF	直接提取文本内容	电子书、官方文档

配置入口：全局设置 → 文档识别 → 内容提取模式

二、混合提取模式：智能图文分离技术

混合模式（mixed）是Umi-OCR的默认提取模式，通过先进的版面分析算法，自动识别文档中的文本块与图片区域，实现精准提取。

工作原理

版面分析：使用PaddleOCR引擎对文档进行布局分析
区域分类：区分文本区域（直接提取）和图片区域（OCR识别）
内容重组：保持原始排版结构输出结果

高级配置

通过HTTP接口可自定义提取规则：

{
  "doc.extractionMode": "mixed",
  "tbpu.parser": "multi_para",
  "tbpu.ignoreArea": [[[0,0],[100,50]], [[200,50],[300,80]]]
}

参数说明：

multi_para：多栏按自然段换行
ignoreArea：排除页眉页脚等干扰区域

完整参数文档：HTTP接口手册

三、整页OCR模式：扫描件数字化解决方案

整页强制OCR模式（fullPage）将整个页面视为图片处理，即使包含可复制文本也会重新识别，特别适合质量较差的扫描件。

关键参数优化

图像预处理：
- 启用方向纠正（ocr.cls=true）
- 调整限制图像边长（ocr.limit_side_len=4320）

识别精度提升：

# Python调用示例
import requests
data = {
  "base64": "iVBORw0KGgoAAAAN...",
  "options": {
    "ocr.language": "models/config_chinese.txt",
    "ocr.cls": True,
    "ocr.limit_side_len": 4320
  }
}
response = requests.post("http://127.0.0.1:1224/api/ocr", json=data)

代码来源：API调用示例