[架构分层]
-
输入层:
- 支持格式:JPG/PNG/PDF/扫描件
- 预处理:自动方向矫正、去噪、对比度增强
-
核心处理层:
├─ 文本检测模块
│ ├─ DB算法(可微分二值化)
│ ├─ 输出文本框坐标(四边形/多边形)
│ └─ 候选框过滤(NMS算法)
├─ 方向分类模块
│ ├─ MobileNetV3轻量网络
│ ├─ 0°/180°方向判断
│ └─ 图像旋转矫正
└─ 文本识别模块
├─ CRNN+CTC架构
├─ 多语言字符集支持
└─ 置信度评分 -
输出层:
- 结构化结果:JSON/Excel/XML
- 可视化标注:带框选标记的图像
- 后处理接口:自定义规则引擎接入点
一、OCR技术演进与PaddleOCR定位
1.1 传统OCR的局限
传统OCR系统依赖手工特征提取和模板匹配,面临三大挑战:
- 复杂场景适应性差:光照变化、模糊、透视变形等场景准确率骤降
- 多语言支持困难:需要为每种语言设计独立特征库
- 部署成本高昂:依赖专用硬件且难以