RapidOCR中检测框出现负数的技术分析与解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01351/article/details/147517034

RapidOCR中检测框出现负数的技术分析与解决方案

RapidOCR A cross platform OCR Library based on PaddleOCR & OnnxRuntime & OpenVINO. 项目地址: https://gitcode.com/gh_mirrors/ra/RapidOCR

问题背景

在使用RapidOCR进行文本检测时，偶尔会出现检测框坐标包含负数的情况，例如[[412.0, -2.0], [514.0, -1.0], [513.0, 35.0], [411.0, 34.0]]。这种现象引起了开发者社区的关注，因为它涉及到检测结果的准确性和后续处理的可靠性。

技术原理分析

RapidOCR的文本检测模块通常采用基于深度学习的检测算法，如DBNet等。这些算法会预测文本区域的多边形边界框坐标。理论上，检测框坐标应该位于图像的有效范围内（即x坐标在0到图像宽度-1之间，y坐标在0到图像高度-1之间）。

在RapidOCR的实现中，确实包含了坐标裁剪的逻辑。TextDecoder类中的clip_det_res()方法明确设计用于确保坐标值在合理范围内：

def clip_det_res(self, points, img_height, img_width):
    for pno in range(points.shape[0]):
        points[pno, 0] = int(min(max(points[pno, 0], 0), img_width - 1))
        points[pno, 1] = int(min(max(points[pno, 1], 0), img_height - 1))
    return points

问题原因探究

经过分析，出现负数坐标可能有以下几种原因：

预处理阶段的问题：在图像预处理或缩放过程中，可能导致坐标变换出现异常
后处理逻辑遗漏：虽然clip_det_res()方法存在，但在某些调用路径上可能被绕过
边缘文本的特殊情况：当文本位于图像边缘时，模型预测的边界框可能部分超出图像范围

解决方案讨论

对于这个问题，开发者社区提出了两种不同的处理思路：

强制裁剪方案：将所有负数坐标强制设为0，确保所有坐标都在有效范围内。这种方案简单直接，但可能会丢失一些边缘文本的信息。
保留特征方案：认为负数坐标代表了文本确实位于图像边缘的特征，保留这些负数可以反映文本被截断的真实情况，有利于后续处理流程做出更合理的判断。

最佳实践建议

基于技术分析和实际应用场景，我们建议：

对于通用OCR应用场景，采用强制裁剪方案更为稳妥，可以避免后续处理中的各种边界问题。
对于需要精确分析文本位置关系的专业应用，可以考虑保留负数坐标，但需要在后续处理流程中增加相应的边界处理逻辑。
在实现上，可以在clip_det_res()方法中增加一个参数，让使用者根据具体需求选择是否严格裁剪坐标。

代码改进示例

以下是改进后的坐标裁剪方法示例，增加了灵活性：

def clip_det_res(self, points, img_height, img_width, strict_clip=True):
    if strict_clip:
        for pno in range(points.shape[0]):
            points[pno, 0] = int(min(max(points[pno, 0], 0), img_width - 1))
            points[pno, 1] = int(min(max(points[pno, 1], 0), img_height - 1))
    return points