1、需求背景
有的视频文件的字幕已经压制到了视频的图像中,不能单独提取出字幕文件。网上的 “提取视频字幕” 网站多为提取视频中的字幕文件,而非识别视频图像中的字幕。少数通过OCR技术识别画面中字幕的工具需要在线运行、运行速度较慢,或者需要收费,使用不够灵活。
我希望实现在视频中提取字幕截图的程序,需要解决两个关键问题:一是如何判断视频中是否出现了字幕,二是如何确定字幕何时发生变化。然后在有字幕且字幕刚刚发生变化时,截取并保存字幕图片。
为了解决这两个问题,我的主要思路是利用视频中字幕的固定位置和特殊颜色进行提取。通常情况下,字幕会出现在视频的特定区域,并且其颜色与周围背景颜色不同、并使用固定颜色。我们可以通过指定字幕所在的区域坐标和颜色来提取字幕图像。
然后通过判断在指定区域内符合指定颜色的像素值是否超过阈值,来判断是否存在字幕。而通过判断两帧画面之间的像素差异数是否超过阈值,来判断字幕是否变化。
通过这种方式,并根据实际情况调整参数,可以达到比较合适的漏检率和误检率,从而实现较好的字幕提取效果。
2、设计思路
2.1 读取视频的迭代器函数 VideoIter
函数实现从视频中迭代获取指定时间范围内的帧图像,它接受4个参数:file
表示视频文件路径,start_time
表示开始时间(单位秒,后同),end_time
表示结束时间,step_time
表示迭代步长。其中start_time
和end_time
可以设置为负数,表示为相对于总时长的倒数时间位置,step_time
设置为负数时表示为倒序迭代视频中的图像。
函数从视频的start_time
开始时间开始截取图像,每间隔step_time
步长时间捕获一张图像,将帧图像作为生成器(yield
)的输出,直到达到end_time
结束时间停止。
2.2 图像预处理函数 ProcessImage
函数实现从传入图像中裁剪指定区域、并根据给定的颜色和浮动值进行颜色分割,它接受4个参数:img
表示输入的图像,area
表示要裁取的区域边界坐标(格式为 (x1, y1, x2, y2)
),color
表示要分割的颜色(格式为 (r, g, b)
),float
表示颜色分割时的容差范围值。
函数设计从视频画面中裁取字幕出现位置的区域,然后根据设定的字幕颜色和允许容差匹配出文字区域的蒙版。最后,使用OpenCV的方法根据颜色阈值对图像进行转换,并将函数处理过的图像返回。
2.3 提取视频中字幕图像的主函数 ExtractSubtitle
函数实现从视频中提取字幕图像,它接受7个参数:file
表示视频文件路径,area
表示字幕所在区域的边界坐标(格式为 (x1, y1, x2, y2)
),color
表示字幕的颜色(格式为 (r, g, b)
),float
表示颜色判断时的容差范围值,count_thresh
表示像素计数阈值,diff_thresh
表示像素差异阈值,delay
表示显示图像的延迟时间。
函数通过循环调用VideoIter
函数迭代读取视频中的帧图像,并使用ProcessImage
函数处理图像,将字幕部分提取出来。在处理过程中,函数统计处理后图像中非零像素的数量,并计算当前图像与上一帧图像的像素差异。如果像素数量和像素差异数值均超过了各自设定的阈值,就将当前帧图像显示输出(作为调试)、并将视频帧图像保存到视频文件同名的文件夹中。文件命名包含帧序号、像素数量、和像素差异数(用于调试参考)。
3、实现代码
import os
import cv2
import numpy as np
def imshow(img, delay=1, title=''):
cv2.imshow('', img)
cv2.setWindowTitle('', title)
cv2.waitKey(delay)
def imwrite(file, im):
cv2.imencode('.jpg', im)[1].tofile(file)
def VideoIter(file, start_time, end_time, step_time):
cap = cv2.VideoCapture(