- 博客(59)
- 收藏
- 关注
原创 主动说话人检测调研
主动说话人检测是视听场景理解中的一项具有挑战性的任务,其目的是检测在一个或多个说话人场景中谁在说话,确定视频中每个可见的人是否以及何时在说话。
2024-12-13 17:38:15
980
原创 Win端交叉编译鸿蒙Ohos Native层第三方库流程
鸿蒙端SDK开发需要依赖使用到的三方库(如OpenCV、其他C++库等),以下为Windows端交叉编译Ohos端三方库流程
2024-05-16 11:56:28
1208
1
翻译 EMO: Emote Portrait Alive 译文
我们提出了EMO,一种表达性音频驱动的人像视频生成框架。输入单个参考图像和语音音频,例如说话和唱歌,我们的方法可以生成具有表达性面部表情和各种头部姿势的语音化身视频,同时,我们可以根据输入音频的长度生成任何持续时间的视频。
2024-03-04 16:39:00
480
原创 使用pnnx将Torch模型转换为ncnn
PyTorch神经网络eXchange(PNNX)是PyTorch模型互操作性的开放标准。PNNX为PyTorch提供了一种开放的模型格式。它定义了计算图以及严格匹配PyTorch的高级运算符。
2024-01-04 17:12:16
3201
原创 使用pyscenedetect进行视频场景切割
在视频剪辑有转场一词:一个视频场景转换到另一个视频场景,场景与场景之间的过渡或转换,就叫做转场。本篇介绍一个强大的开源工具PySceneDetect,它是一款基于opencv的视频场景切换检测和分析工具
2023-12-05 15:21:18
4657
转载 Windows 下使用 SSHFS 通过 SSH 协议挂载远程服务器目录
由于本地磁盘自带容量不足,因此考虑挂载Linux服务区磁盘。一般情况下,我们可以通过 samba 协议挂载远程服务器上的文件夹。然而,并非所有服务器都开放了 samba 端口,特别是在外网情况下,通常只会开放一个 ssh 端口。而 sshfs 是通过 ssh 协议模拟的方式,实现将远程服务器上的硬盘挂载到本地。也就是说,只要你的服务器支持ssh连接,你就可以将服务器的硬盘挂载到本地,然后采用本地的方式来操作硬盘里的文件。下面将介绍使用winfsp + sshfs-win方式挂载Linux磁盘。
2023-11-23 13:49:09
1029
原创 OpenGL LUT滤镜算法解析
LUT全称LookUpTable,也称为颜色查找表,它代表的是一种映射关系,通过LUT可以将输入的像素数组通过映射关系转换输出成另外的像素数组。通过这个映射关系就可以将一个像素的颜色转换为另外一种颜色。
2023-10-11 13:40:14
1303
转载 Deep Video Portraits解读
我们方法通过迁移源参与者的头部姿势,面部表情和眼睛动作来提供对目标参与者头部的完全控制,同时保留目标的身份和外观。首先,使用SOT的单目人脸重构方法(使用参数化人脸和照明模型)跟踪源和目标参与者,由此得到低的维参数向量序列,表示每个视频帧中参与者的身份,头部姿势,表情,视线和场景照明。合成和编辑视频肖像(即构成人的头部和上半身的视频)是计算机图形学中的一个重要问题,在视频编辑和电影后期制作,虚拟现实和远程呈现等方面有许多的应用。提出了一个可以将粗糙的面部模型转换到真实的人脸视频输出的网络。
2023-09-11 10:43:11
374
转载 达摩院CVPR2023人脸重建论文HRN解读——REALY榜单冠军模型
受限于 3DMM 的低维表征,大多数基于 3DMM 的人脸重建方法无法恢复高频面部细节,如皱纹、酒窝等。一些方法尝试引入细节贴图或非线性操作,结果仍然不理想。为此,我们在本文中提出了一种新颖的层次化表征网络 (HRN),以实现单图的高精细人脸重建。具体来说,我们对人脸几何细节进行了解耦并引入了层次表征来实现精细的人脸建模。同时,结合面部细节的3D先验,提高重建结果的准确性和真实性。我们还提出了一个de-retouching模块,以实现更好的几何和纹理解耦。
2023-08-29 14:47:23
1038
原创 Face2Face: Real-time Face Capture and Reenactment of RGB Videos (CVPR 2016) 译文
我们提出了一种用于单目目标视频序列(例如Youtube视频)的实时面部再现的新方法。源序列也是单目视频流,用商品网络摄像头实时捕获。我们的目标是通过源演员将目标视频的面部表情动画化,并以逼真的方式重新渲染被操纵的输出视频。为此,我们首先通过基于非刚性模型的捆绑解决了从单目视频中恢复面部身份的约束不足问题。在运行时,我们使用密集的光度一致性测量来跟踪源视频和目标视频的面部表情。然后通过在源和目标之间快速有效的变形传递来实现再现。从目标序列中检索与重新定位表达最匹配的口腔内部,并扭曲以产生准确的匹配。
2023-08-28 10:54:19
1012
原创 在x86机器上的Docker运行arm64容器
工作中常用电脑主机CPU为x86架构,有时由于产品需要,我们需要编译aarch64架构的SDK或者应用程序供使用或者测试。一种比较快捷的方式是使用aarch64的CPU构建相应操作系统,实现真机运行。但在无arm架构CPU环境下,我们可否x86配合相应软件模拟aarch64指令集,实现程序的正常运行呢?答案是可行的,下述方法将介绍一种使用qemu + 容器化部署方式,使我们可在x86机器上的Docker运行arm64容器。
2023-08-25 10:12:45
4763
1
翻译 StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN 译文
图1。我们的统一框架支持高分辨率的通话人脸生成,通过驾驶视频或音频解除纠缠控制,以及灵活的人脸编辑。我们的方法首次将一次性会说话的人脸生成的分辨率提高到1024×1024。第一行显示了一个视频驱动的交叉身份再现的合成视频。第二行显示了一个由音频驱动的嘴唇运动生成的合成视频。第三行显示,在谈话视频生成过程中,我们可以通过GAN倒置在任何时间戳上一致地自由编辑面部属性。第四行显示,我们可以基于嵌入式3DMM执行直观的人脸编辑以及会说话的人脸生成。
2023-07-18 16:08:10
928
翻译 StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single Video 译文
人脸再现方法试图尽可能真实地恢复和再现人脸特征视频。现有的方法面临着质量与可控性的两难境地:与3D方法相比,基于2D GAN的方法实现了更高的图像质量,但在面部属性的细粒度控制方面受到影响。在本文中,我们提出了StyleAvatar,一种使用基于StyleGAN的网络的实时照片真实感人像头像重建方法,它可以生成具有忠实表情控制的高保真人像头像。我们通过引入组合表示和滑动窗口增强方法来扩展StyleGAN的功能,这使得能够更快地收敛并提高翻译泛化能力。
2023-05-15 13:54:01
1862
翻译 SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking
我们提出了SadTalker,它从音频中生成3DMM的3D运动系数(头部姿势,表情),并隐式调制了一种新颖的3D感知面部渲染,用于说话的头部生成。为了学习真实的运动系数,我们明确地分别模拟音频和不同类型的运动系数之间的联系。准确地说,我们提出ExpNet通过提取系数和3d渲染的面部来从音频中学习准确的面部表情。对于头部姿势,我们通过一个有条件的VAE来设计PoseVAE来合成不同风格的头部运动。最后,将生成的三维运动系数映射到所提出的人脸渲染的无监督三维关键点空间,并合成最终的视频。
2023-03-14 09:49:55
5093
1
翻译 One-Shot Face Reenactment on Megapixels 译文
One-Shot Face Reenactment on Megapixels 译文
2023-03-06 14:40:15
878
翻译 Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis 译文
Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis模仿任意说话风格进行真实音频驱动的人脸合成
2023-03-06 14:34:09
919
翻译 Face2Faceρ: Real-Time High-Resolution One-Shot Face Reenactment 译文
Face2Faceρ: Real-Time High-Resolution One-Shot Face Reenactment 译文
2023-03-06 14:23:17
1946
原创 Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读
Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读
2023-03-06 14:15:44
870
原创 BlazeFace 理解
Blazeface模型是Google推出的一款专为移动GPU推理量身定制的轻量级且性能卓越的人脸检测器,BlazeFace 在旗舰移动设备上以200-1000 + FPS的速度运行。 这种超实时性能使其能够应用于任何对性能要求极高的增强现实应用中。
2023-03-06 11:32:46
739
原创 使用 OpenCV 进行 Delaunay 三角剖分
人脸复杂形变,换脸,人脸融合等技术均使用到了三角剖分,因此本文介绍下Delaunay三角剖分及OpenCV实现
2023-03-06 10:53:19
615
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人