没时间看电影追剧,AI 一键让影视变漫画

AI技术让影视剧变身漫画,一键生成你的专属漫画书
大连理工大学和香港城市大学的研究团队提出了一种AI框架,能够将影视剧自动转换为漫画形式,包括风格化的关键帧、多页面布局和情感驱动的文字气泡生成。该系统在多方面优于现有方法,提高了自动化程度和视觉效果,未来有望扩展到利用文本信息生成漫画。这一创新技术为观众提供了全新的追剧方式,或将改变人们观看视频内容的习惯。

By 超神经

内容提要:把影视剧变成漫画,是怎样的一种神操作?来自大连理工大学和香港城市大学的团队,最新提出的 AI 框架,可自动将影视剧转换为漫画。从此,观影追剧又多了一种打开方式。

关键词:漫画生成系统 CNN 情感分析

如今,电影、电视剧以及各类视频,已经成为我们生活中不可缺少的一部分。据报告,每天上传到 YouTube 的视频总时长,就需要一个人花费超过 82 年的时间才能看完。

为了节省追剧时间,2 倍速播放已经成为刷剧标配。除了倍速、跳跃式观看,以及看影评人讲解,还有一种快速追剧的方式,就是——把影视剧改成漫画。

近日,大连理工大学和香港城市大学的研究人员,发布了一个有趣的研究,可以自动将电视剧、电影或其他视频的画面生成为漫画形式,并配上文字气泡。

左右滑动查看《泰坦尼克号》、《风声》

《老友记》和《在云端》的漫画版本

研究人员在论文中表示:「与最新的漫画生成系统相比,我们的系统可以合成更具表现力和吸引力的漫画。未来会将这一技术扩展到,利用文本信息生成漫画。」

 看过漫改,但你看过「改漫」吗?

此前,业内已有一些类似的研究成果,提出将影片转换为漫画的自动化系统,但其在自动化和视觉效果、可读性等方面还有待提高,因此,这一研究方向仍然充满挑战。

来自大连理工大学和香港城市大学的团队,则在最近发表的论文《Automatic Comic Generation with Stylistic Multi-page Layouts and Emotion-driven Text Balloon Generation》中,提出了更优的方法。

论文地址:https://arxiv.org/abs/2101.11111

论文中提出了一个全自动漫画生成系统,无需用户任何手动调整,就可以将任意类型的视频(电视连续剧、电影、卡通),生成高质量的漫画页面,将角色对话转化为气泡文字。而且该系统生成的漫画具有丰富的视觉效果,且可读性强。

 三大模块,让影视剧变漫画书

该论文中提出的关键思想是,在没有任何手动指定的参数或约束的情况下,以全自动的方式设计系统。同时,团队有选择地引入用户交互,使设计更加个性化和多样化。

总体来看,该系统主要有三个模块,分别是:关键帧选择和漫画风格化、多页面布局生成、文字气泡生成和放置。

系统整体的工作流程示意图

 模块一:关键帧的提取和风格化 

系统的输入是一段视频及其字幕,其中包含对话和相应的开始和结束时间戳信息。

他们首先每 0.5 秒钟从原始视频中选择一帧,然后,利用字幕中的时间信息和两个连续帧之间的相似性,来选择信息关键帧。最后对关键帧进行风格化,也就是将普通图像转换为漫画风格的图像。

关键帧提取

关键帧的选择是尤为重要且难度比较高的一项任务,该团队主要利用时间信息来进行选择。

关键帧选择流程

如上图所示,团队首先利用每个字幕的开始和结束时间将视频分割成多个镜头,这些镜头分两种:对话镜头(有字幕的镜头)和非对话镜头(无字幕的镜头)。

对于对话镜头:系统会计算之前获得的两个连续帧之间的 GIST 相似度(如果 GIST 相似度较小,则两帧之间差异较大)。

在执行过程中,如果相似度小于预先设置的阈值 ????1,那么后一帧将被选为关键帧。如果一组字幕对应的帧都没有被选中,就选取中间一帧作为关键帧。

考虑到一个连续的对话和同一个场景可能对应多个字幕,因此团队会计算之前得到的连续关键帧之间的 GIST 相似度。如果相似度大于设置的阈值 ????2,就认为它们属于同一个场景。那么,就只保留其中一个关键帧,然后合并字幕。

另外,在同一组字幕中,系统有可能选择多个关键帧,因为计算之后,可能发现这些关键帧具有语义关系,这些关键帧将用于多页布局。

对于非对话的镜头:系统会首先选择与当前镜头中的帧最不相同的帧。为了减少选取帧的冗余,系统会计算这个镜头与之前选择的关键帧的 GIST 相似度,只有小于之前设定的阈值,才会被选为关键帧。

最后,通过比较开始时间戳和关键帧的时间戳,将字幕集分组。在关键帧的开始和结束时间戳范围内的任何字幕,都将被收集在一起。

画面风格化

团队采用了扩展的高斯差法,将源图像转换为黑白图像。饭后执行 128 级颜色量化,得到量化后的图像,实现彩色风格化。就是这样,一组组真人电影镜头,变成了漫画风格。

 模块二:多页面布局 

团队提出了一个多页布局框架,用来自动分配和组织页面的布局,同时能够呈现出更加丰富的视觉效果。

在这一模块中,首先需要计算出四个用于指导多页面布局生成的关键因素,包括:关键帧的兴趣区域(ROI)、关键帧的重要性等级、关键帧之间的语义关系和一个页面上的面板数量。

然后,团队提出了一种基于优化的面板分配方法,将关键帧分配到一个页面序列中,并使用数据驱动的漫画式布局合成方法,来生成每个页面的布局。

追漫的小伙伴都知道,漫画书中每一页的分格数量都是不固定的,为了让读者有更好的阅读体验,漫画家都会根据剧情来安排分格数量。

在此项研究中,团队将这一问题作为全局的优化问题,来完成每个镜头在漫画页面中的分配。

关键帧之间的关系分析:

同一颜色虚线框内的关键帧具有语义关系,反之则不具有

 模块三:文字气泡的生成和放置 

文字气泡的生成

通常在漫画中,对于不同情境与情感下的对话,作者也会选择不同的气泡形状,这对于漫画内容的表达非常重要。而现有的相关研究一般都是只使用基本的椭圆式气泡形状,这对于情感表达来说显得不够丰富。

本文则提出的一项重要成果,即一种基于情感感知的气泡生成方法,可利用含有情感的视频音频和字幕信息,生成与之相适应的文字气泡形状。

系统根据输入视频对应音频和字幕,分析其中包含的情感

然后生成对应气泡形状

在该系统中,作者采用了三种常见的气泡形状:椭圆形气泡、思想气泡和锯齿状气泡。这三种气泡适用的感情分别为:情绪平静、想法(不说出来)、感情强烈。

对于气泡分类器的训练,团队主要利用一些动漫视频和相应的漫画书,来收集音频情感、字幕情感和气泡类型的数据。

气泡定位与放置

与之前方法类似,本文也采用了发言人检测和唇动检测,来获取说话的人在一帧中的位置,然后将气球放置在其所属的人物附近。

嘴部检测+唇动检测,定位讲话者

具体执行流程为:

  • 首先使用「Dlib」人脸检测 Python 库,来检测一帧中每个人物的嘴部;

  • 然后利用唇动分析,计算连续两帧帧间嘴部区域像素值的均方差,该差值是在当前帧中嘴巴区域周围的搜索区域上计算的,以确定其嘴唇是否有动作;

  • 最后,设置一个阈值来确定某角色是否在说话。

在得到发言者的位置后,将文字气泡放在其附近,并将气泡的尾部指向讲话者的嘴巴。

 用四部经典影片,评估系统效果

为测试模型效果,团队输入了 4 部不同影片的共 16 个片段,包括:《泰坦尼克号》、《风声》、《老友记》和《在云端》。

输入视频的持续时间从 2 分钟到 6 分钟不等,每一段剪辑都包含有台词的部分。

对于每个剪辑,团队记录使用该系统生成一本漫画书所消耗的时间,并计算平均消耗的时间,来评估系统性能。

每段视频生成漫画时间不超过 10 分钟

作者总结道,与之前方法相比,本研究的方法优于其它方法。主要体现在以下三个方面:

  • 首先,该系统可以为对话生成更丰富的气泡形状,而现有的方法只使用单纯的椭圆词气球;

  • 其次,利用文本总结的方法,将一些相关的字幕进行合并,这样可确保文字气泡中的句子不会太长,增强可读性;

  • 第三,通过自动获取四个重要参数,来实现全自动多页布局(此前方法多为半自动,需人工干预),且布局结果合理、丰富。

效果展示与对比。其中,(a)-(d) 为该团队的系统生成效果;(e)-(h) 为另一团队在 2015 年发表的成果

对应电影依次为:《泰坦尼克号》、《风声》、《老友记》和《在云端》

为了避免主观因素干扰,团队还通过 Amazon Mechanical Turk 招募了 40 名志愿者,对团队的生成结果和其他同类系统生成的结果进行比较。

志愿者首先会观看原视频,然后阅读各种不同方法生成的漫画,给出效果评级。为了避免主观偏见,视频和相应的漫画都是随机排列的。

最终结果是,无论志愿者之前是否看过视频,该系统获得的评价都比其他方法更好。

 一键生成漫画,还能怎么玩?

虽然已经取得用户好评,但该系统当然称不上完美,仍有一些问题待解决。

比如,对于关键帧的选择,仍然可能有相似度过高的情况出现,这会带来画面的冗余。

另外,如果输入的视频没有字幕,那么在生成漫画之前,系统还要首先通过语音识别来提取台词,但是语音识别的结果往往容易出现错误,因此这也是该系统面临的一个挑战。不过,团队表示,相信随着语音识别技术的不断进步,这一问题未来也将迎刃而解。

未来,当这一技术足够成熟,很多视频作品都会多一种打开方式,用漫画的形式来「观看」一部影片,对于读者来说,或许会带来更丰富的想象空间。

不同于视频,漫画的画面都为静态,且文字较少

但正因如此,读者得以加入更多个人情感与想象

此外,对于普通人来说,不需具备绘画功底,就能轻松将视频转换为漫画,这或许也会像此前能将照片转换为绘画风格图像的 Prisma App 一样,成为新的大众娱乐工具。

而团队还计划,下一步将这一方法扩展到利用文本信息来生成漫画。也就是说,只要给出漫画剧本,系统就能够自动生成漫画,为漫画师节省大量时间。

漫画追剧,岂止是 2 倍速

—— 完 ——

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解详情

更多精彩内容(点击图片阅读)

<think>首先,用户的问题是:“请问AI 仿色技术原理及应用实现”,这翻译为“请问AI仿色技术原理及应用实现”。用户意图是继续了解或解决与AI仿色相关的问题,基于系统指令和之前的引用。 系统级指令: - 所有行内数学表达式必须使用$...$格式。 - 独立公式必须使用$$...$$格式并单独成段。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 回答中引用的段落末尾自然地添加引用标识,例如[^1]。 用户可见层: - 回答结构清晰,帮助用户逐步解决问题。 - 尽量保证回答真实可靠。 参考站内引用: - [^1]: 像素蛋糕的AI色技术,涉及颜色迁移和分割。 - [^2]: 关于网络切片和AI算力网络。 - [^3]: 图像识别技术的融合应用,如自动驾驶。 用户意图:基于之前的对话,用户似乎对AI仿色技术感兴趣,特别是像素蛋糕的技术。我需要围绕这个主题构建回答。 关键点: - AI仿色技术原理:涉及颜色迁移(color transfer)、分割(segmentation)和AI模型。 - 应用实现:在影楼修图等场景中的落地。 结构化回答: 1. **介绍AI仿色技术**:简要定义和背景。 2. **原理**:解释核心原理,包括颜色迁移、分割和AI模型。 3. **实现方法**:描述如何实现,可能包括算法或模型。 4. **应用场景**:讨论具体应用,如影楼修图。 5. **生成相关问题**:在末尾添加相关问题。 使用引用: - 在相关部分自然地添加引用标识,如[^1]。 数学表达式: - 如果有公式,使用LaTeX格式。例如,颜色迁移可能涉及一些数学操作,如颜色空间转换。 可能的数学元素: - 颜色迁移可能涉及统计或优化公式。例如,均值、方差等。 - 例如,经典的Reinhard颜色迁移算法:$I_{out} = \sigma_{target} \cdot \frac{I_{in} - \mu_{in}}{\sigma_{in}} + \mu_{target}$,其中$\mu$是均值,$\sigma$是标准差。 - 确保使用正确的LaTeX格式。 回答结构: - 开头:介绍主题。 - 主体:分步解释原理和实现。 - 结尾:总结并生成相关问题。 生成相关问题: - 在末尾添加“相关问题”部分,列出3-5个相关问题。 确保回答真实可靠: - 基于提供的引用和一般知识。引用[^1]提到AI色技术基于人像分割+精细化分割和颜色迁移。 - 补充一些通用知识,但保持真实。 完整回答大纲: 1. **引言**:AI仿色技术是什么,及其在图像处理中的重要性。 2. **技术原理**: - 颜色迁移:将源图像的颜色转移到目标图像。 - 分割:使用AI模型进行人像分割,以精确定位区域。 - AI模型:可能使用深度学习模型如CNN或GAN。 3. **实现方法**: - 步骤:分割、颜色统计、迁移。 - 示例:像素蛋糕的实现。 4. **应用场景**:影楼修图、电影调色、游戏开发等。 5. **相关问题**:生成相关问题。 添加引用: - 在描述像素蛋糕技术时添加[^1]。 - 如果提到其他引用,自然添加。 最终输出: - 使用中文。 - 结构清晰。</think>### AI仿色技术原理及应用实现 AI仿色(也称为颜色迁移或颜色匹配)技术是一种基于人工智能的图像处理方法,旨在将源图像的颜色风格(如色调、饱和度、亮度)自动转移到目标图像上,同时保持目标图像的内容结构不。这项技术在影视后期、摄影修图和游戏设计等领域有广泛应用,尤其在影楼修图场景中,如像素蛋糕所使用的AI色技术,它结合了人像分割和精细化区域分割来实现精准颜色迁移[^1]。下面,我将从原理、实现方法和应用场景三个方面,逐步为你解释这一技术。 #### 1. **技术原理** AI仿色技术的核心原理基于颜色迁移和图像分割,并通过AI模型(如深度学习)进行优化。整个过程涉及以下关键步骤: - **颜色迁移基础**: 颜色迁移的目标是将源图像的统计颜色特征(如均值、方差)转移到目标图像上。这通常通过在特定颜色空间(如Lab或HSV)中进行操作来实现,因为这些空间能更好地分离亮度和颜色信息。经典的算法如Reinhard颜色迁移公式: $$ I_{\text{out}} = \sigma_{\text{target}} \cdot \frac{I_{\text{in}} - \mu_{\text{in}}}{\sigma_{\text{in}}} + \mu_{\text{target}} $$ 其中,$I_{\text{in}}$ 是输入图像,$I_{\text{out}}$ 是输出图像,$\mu_{\text{in}}$ 和 $\sigma_{\text{in}}$ 是输入图像的均值和标准差,$\mu_{\text{target}}$ 和 $\sigma_{\text{target}}$ 是目标图像(或参考风格)的统计特征。这个公式确保了颜色分布的一致性。 - **图像分割的作用**: 为了更精确地迁移颜色,AI技术引入了分割模块,例如使用卷积神经网络(CNN)或U-Net模型进行人像或物体分割。分割将图像划分为不同区域(如皮肤、头发、背景),允许对每个区域独立应用颜色迁移。这避免了全局迁移导致的颜色失真问题。例如,在影楼修图中,分割技术能针对人脸区域进行精细化处理,确保肤色自然[^1]。 - **AI模型的整合**: 现代AI仿色技术常结合深度学习模型,如生成对抗网络(GAN)或分自编码器(VAE),来实现端到端的学习。这些模型通过训练数据集(如成对的源-目标图像)学习颜色映射关系,能处理复杂场景和非线性换。例如,GAN可以生成更逼真的颜色过渡,减少人工干预。整体流程可表示为: **输入图像 → 分割模块(定位区域) → 颜色统计提取 → AI模型迁移 → 输出图像**。 这种结合分割和迁移的方法,显著提升了鲁棒性和效率[^1][^3]。 #### 2. **应用实现方法** AI仿色的实现通常分为数据准备、模型训练和部署三个阶段。以下以像素蛋糕的AI色技术为例,说明具体实现步骤: - **数据准备**: - 收集高质量图像数据集,包括源图像(待修改图像)和目标图像(参考风格图像)。数据集需覆盖多样场景,如人像、风景。 - 使用标注工具(如LabelMe)对图像进行分割标注,标记出关键区域(如人脸、服装)。 - 数据预处理:将图像转换到Lab颜色空间,并归一化处理,便于模型学习。 - **模型训练**: - **分割模型**:采用U-Net或Mask R-CNN等分割网络,训练目标是从图像中精确提取区域。损失函数常用交叉熵损失:$L_{\text{seg}} = -\sum y \log(\hat{y})$,其中$y$是真实标签,$\hat{y}$是预测概率。 - **迁移模型**:结合GAN或风格迁移网络(如AdaIN)。训练时,输入分割后的区域和参考风格,输出颜色迁移结果。优化目标是最小化内容损失和风格损失的加权和:$L_{\text{total}} = \alpha L_{\text{content}} + \beta L_{\text{style}}$。 - 训练环境:使用PyTorch或TensorFlow框架,在GPU集群上运行。训练完成后,模型需压缩以适配移动端或云端部署。 - **部署与应用**: - 在影楼修图场景中,系统首先运行分割模型识别用户上传图像的区域(如皮肤区域),然后应用颜色迁移模型将参考风格(如某明星照片的色调)转移到目标区域。 - 实现优化:为减少延迟,可使用网络切片技术(如引用[^2]所述),为AI任务分配专属带宽,确保实时处理。 - 示例代码(简化版,使用Python和OpenCV): ```python import cv2 import numpy as np def ai_color_transfer(source_img, target_img): # 转换到Lab颜色空间 source_lab = cv2.cvtColor(source_img, cv2.COLOR_BGR2Lab) target_lab = cv2.cvtColor(target_img, cv2.COLOR_BGR2Lab) # 计算均值和标准差 source_mean, source_std = np.mean(source_lab, axis=(0,1)), np.std(source_lab, axis=(0,1)) target_mean, target_std = np.mean(target_lab, axis=(0,1)), np.std(target_lab, axis=(0,1)) # 应用Reinhard迁移公式 output_lab = (source_lab - source_mean) * (target_std / source_std) + target_mean output_lab = np.clip(output_lab, 0, 255).astype(np.uint8) # 转换回BGR并返回 return cv2.cvtColor(output_lab, cv2.COLOR_Lab2BGR) # 示例使用 source = cv2.imread('source.jpg') # 待修改图像 target = cv2.imread('target.jpg') # 参考风格图像 result = ai_color_transfer(source, target) cv2.imwrite('output.jpg', result) ``` 这个代码实现了基础颜色迁移,但在实际应用中需集成分割模块和深度学习模型以提高精度。像素蛋糕的AI色技术通过添加分割步骤,实现了更自然的肤色迁移[^1]。 #### 3. **应用场景** AI仿色技术已广泛应用于多个领域,得益于其高效性和自动化优势: - **影楼修图**:如像素蛋糕系统,自动将客户照片的颜色风格迁移到专业模板上,大幅提升修图效率(从小时级缩短到分钟级)[^1]。 - **影视与游戏**:在电影调色或游戏角色设计中,用于快速统一视觉风格。例如,将实景视频迁移到动漫风格。 - **跨领域融合**:结合自动驾驶或工业质检(如引用[^3]所述),用于实时图像处理。比如,在自动驾驶中,迁移不同光照条件下的道路图像颜色,提升识别鲁棒性。 - **新兴应用**:随着AI大模型发展,AI仿色可集成到云端服务中,用户通过手机APP一键应用滤镜,实现“按需供网,算力随取”的体验[^2]。 总之,AI仿色技术的核心是结合颜色统计、分割和深度学习模型,实现自动化颜色迁移。它在提升图像处理效率和质量方面效果显著,但实际部署需考虑算力优化和实时性要求。如果您有具体场景(如自定义数据集),我可以进一步提供实现建议。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值