漫画书框架与文本提取及手绘图形统一表示方法
漫画书框架与文本提取
在处理漫画书时,准确提取框架和文本区域是非常重要的。下面将详细介绍一种新的提取方法。
问题背景
在漫画中,存在一些特定的框架问题,如缺失框架、部分框以及多框架重叠等情况。以往处理重叠元素的方法耗时较长,且参数选择不明确。同时,文本分割方面,之前的工作大多假设文本是黑色写在白色气球内,存在一定局限性。
新方法介绍
- 目标 :为了索引目的,同时从漫画页面中提取框架和文本区域。
- 处理流程 :
- 预处理 :
- 灰度转换:将图像转换为灰度图。
- 二值化阈值计算:根据页面边框像素的中值计算阈值。
- 图像反转:若中值更接近黑色灰度,则进行图像反转,以确保最终得到白色背景。
- 二值化:将图像进行二值化处理。
- 连通组件提取:使用CC算法提取所有元素的边界框。
- ROI分类 :
- 定义ROI为连通组件边界框,使用k - means算法根据ROI高度进行分类,分为“框架”“文本”和“噪声”三类。
- 计算每类的方差,若“框架”类方差高,则应用特定算法改进之前的步骤。
- 预处理 :
超级会员免费看
订阅专栏 解锁全文
836

被折叠的 条评论
为什么被折叠?



