1.文本/图片生成视频顾名思义,就是输入一段文本描述/上传一张图片即可生成对应的视频。我们常见的Runway、Pika、NeverEnds、Pixverse、svd等都属于此类。比如runway的影视风格Pika的动漫风格NeverEnds的人像模特当然还有一些外延应用,例如最近比较火的阿里的“全民舞王”,底层基于Diffusion Model,再结合了Controlnet等其他技术,后文也会讲到。
2.视频到视频的生成通常分为风格迁移类型、视频内部的替换、局部重绘、视频AI高清化。如WonderStudio的人物CG替换:
DomoAI的视频风格转换涉及技术包括:视频序列帧生成和 Contorlnet 处理、视频风格迁移Lora、视频放大、面部修复等。
视频换脸常见的有Faceswap、DeepFacelab等。涉及技术包括:人脸检测、特征提取、人脸转换、优化等。
3.数字人类以Heygen和D-iD为代表,通过人脸检测Face detection、语音克隆TTS、口型同步Lip sync技术等组合实现。
4.视频编辑类型素材匹配可以根据你给定的主题或者需求,通过搜索现有素材拼接成一个完成的视频。我们平时剪辑最常用的剪映就是其中的一种,可以在线搜索素材匹配你的文本需求。
关键部分剪辑 将长视频转化为所需的短视频,适用于访谈节目类。涉及技术可能包括使用OpenCV和TensorFlow来分析视频内容,识别关键片段,然后使用MoviePy来剪辑和组装这些片段,形成短视频。
视频高清化通过超分算法、降噪算法、以及插帧等功能共同实现视频质量的提升。