对文本倾斜角度的校正

最新推荐文章于 2025-05-10 11:15:27 发布

Hogan180

最新推荐文章于 2025-05-10 11:15:27 发布

阅读量4.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 机器学习文章标签：计算机视觉 opencv

本文链接：https://blog.youkuaiyun.com/weixin_40586929/article/details/107028823

Python 同时被 2 个专栏收录

50 篇文章

订阅专栏

机器学习

27 篇文章

订阅专栏

上一篇我们提到了车牌的位置定位，主要运用的知识点是查找边缘的轮廓，并且使用形态学的操作扩大、缩小轮廓然后提取出来。其实在OCR（光学字符识别）中也是会用到这样的方法，但是在OCR识别中，就可能会出现文字方向并不是出于完全的垂直或者完全的水平，而是倾斜一定的角度。
在这里插入图片描述
比如像上图这样的图片，那么在进行识别的时候就可能会因为这个因素而造成结果上的误差。那么在这个时候就需要对文本倾斜的角度进行校正。

矩阵校正法

具体的方法可以通过矩阵进行旋转校正。在经过形态学操作后，我们会获得文本的大概外轮廓信息，然后我们就可以根据外轮廓的点所在位置，来得出这个区域的最小外接矩形。通过minAreaRect这个函数，不仅能获得矩形宽与高，还能获得角度，中心点位置。
根据中心点和角度这两个参数输入到getRotationMatrix2D函数中，就可以获得我们所需的仿射变换矩阵。但是这其中又有一个要求：因为minAreaRect返回的角度范围处于[-90-0)。
当倾斜角度范围为 (-45, 0) 时，即小于45度的负角度，表示文本逆时针倾斜。此时，对该角度不进行处理，在仿射变换时进行顺时针旋转。
但是当文本倾斜角度范围为 [-90, -45) 时，表示文本顺时针倾斜，对该角度加上90度后得到一个小于45度的正角度，在仿射变换时逆时针旋转。

def rotated_img_with_radiation(gray, is_show=False):
    thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY_INV, 11, 2)
    # 计算包含了旋转文本的最小边框
    coords = np.column_stack(np.where(thresh > 0))
    angle = cv2.minAreaRect(coords)[-1]
    
    if angle < -45:
        angle = -(90 + angle)
    else:
        angle = -angle
    
    h, w = gray.shape[:2]
    center = (w // 2, h // 2)
    M = cv2.getRotationMatrix2D(center, angle, 1.0)
    rotated = cv2.warpAffine(gray, M, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)
    return rotated

快速傅里叶变换法

上述方法中，对于垂直的图像就似乎不能为力了。但是因为通过傅里叶变换，再使用霍夫直线检测，就可以根据这条线段两个端点的坐标来判断出水平方向角度、垂直方向角度，找到角度值后也就可以识别出图像中物体的几何相关方向，通过这个角度来纠正图像。所以也可以使用FFT变换，然后再校正、变换回来。傅里叶变换的原理在于，任何一个函数都可以分解为无数个正弦函数和无数个余弦函数的和，所以就可以将图像从空间域转换到频率域。
在一幅图像的频率域中，高频部分代表了图像的细节、纹理信息；低频部分代表了图像的轮廓信息。就像下图：越靠近中心，越亮，频率也越低，越靠近边缘，越暗，频率也随之变高。我们可以对变换后处于频率域中的图像进行处理，这与信号处理的基本思想是相通的，倘若对一幅精细的图像使用低通滤波器，那么滤波后的结果就剩下了轮廓了。
如果图像受到的噪声恰好位于某个特定的“频率”范围内，则可以通过滤波器来恢复原来的图像。
在这里插入图片描述

def rotated_img_with_fft(gray):
    # 图像延扩
    h, w = gray.shape[:2]
    #以空间换时间，一般应该是2的n次方，这样便于FFT进行更多层次的二分，从而加快变换速度扩大数值到特定值来加速傅里叶变换
    new_h = cv2.getOptimalDFTSize(h) 
    new_w = cv2.getOptimalDFTSize(w)
    right = new_w - w
    bottom = new_h - h
    #扩充图像的边界，
    img = cv2.copyMakeBorder(gray, 0, bottom, 0, right, borderType=cv2.BORDER_CONSTANT, value=0)

    # 执行傅里叶变换，并过得频域图像
    f = np.fft.fft2(img )
    fshift = np.fft.fftshift(f)

    fft_img = np.log(np.abs(fshift))
    fft_img = (fft_img - np.amin(fft_img)) / (np.amax(fft_img) - np.amin(fft_img))

    fft_img *= 255
    ret, thresh = cv2.threshold(fft_img, 150, 255, cv2.THRESH_BINARY)

    # 霍夫直线变换
    thresh = thresh.astype(np.uint8)
    lines = cv2.HoughLinesP(thresh, 1, np.pi / 180, 30, minLineLength=40, maxLineGap=100)
    try:
        lines1 = lines[:, 0, :]
    except Exception as e:
        lines1 = []

    piThresh = np.pi / 180
    pi2 = np.pi / 2
    angle = 0
    for line in lines1:
        x1, y1, x2, y2 = line
        if x2 - x1 == 0:
            continue
        else:
            theta = (y2 - y1) / (x2 - x1)
        if abs(theta) < piThresh or abs(theta - pi2) < piThresh:
            continue
        else:
            angle = abs(theta)
            break
    
    angle = math.atan(angle)
    angle = angle * (180 / np.pi)

    center = (w // 2, h // 2)
    height_1 = int(w * fabs(sin(radians(angle))) + h * fabs(cos(radians(angle))))
    width_1 = int(h * fabs(sin(radians(angle))) + w * fabs(cos(radians(angle))))
    M = cv2.getRotationMatrix2D(center, angle, 1.0)
    M[0, 2] += (width_1 - w) / 2
    M[1, 2] += (height_1 - h) / 2
    rotated = cv2.warpAffine(gray, M, (width_1, height_1), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)

    return rotated

最后效果图：在这里插入图片描述