漫画书图像分析的多任务模型:Comic - MTL
1. 多任务学习背景与动机
在漫画书图像分析中,传统方法处理多个元素时耗时较长。为了减少整体处理时间,我们探索了一种能在一个深度学习模型中处理多个元素的方法,即多任务学习(MTL)模型。MTL 模型旨在联合学习多个相关任务,以提高所有任务的泛化性能。
1.1 常见的基于 CNN 的 MTL 工作
以下是一些计算机视觉领域中基于卷积神经网络(CNN)的流行 MTL 工作:
- 联合学习多任务的 CNN 模型 :有模型通过共享 CNN 层联合学习面部地标检测、头部姿态估计、性别分类、年龄估计、面部表情识别和面部属性推断等不同任务。
- 预测图像属性的 CNN 模型 :使用单独的 CNN 处理每个任务,并通过稀疏变换在公共层融合不同的 CNN 来预测图像属性。
- 旋转面部任务的多任务模型 :以基于生成图像重建原始图像为辅助任务,学习旋转面部任务。
- Mask R - CNN 模型 :联合学习目标检测任务和目标分割任务,在分割和检测任务上都取得了最先进的性能,但该模型需要对象的分割掩码。
1.2 对 Mask R - CNN 的扩展
在我们的工作中,有些元素(如面板、漫画角色)只有边界框注释,而有些元素(如气球)有分割掩码。因此,我们扩展了 Mask R - CNN 模型,使其能够使用分割掩码和边界框,对面板、漫画角色(检测)和气球(分割)同时进行检测和分割任务。
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



