自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 MoDiTalker: Motion-Disentangled DiffusionModel for High-Fidelity Talking Head Generation|论文随记

将视频的变化沿着时间、高度和宽度三个轴进行分解,视频序列被投影到三个二维平面上,得到低维的特征。在生成会说话头部视频时,hw 平面可以提供说话者特定的面部结构信息,而 hs 和 ws 平面则负责编码帧与帧之间的时间关系。作者设计了一个二阶段的模型,利用两个扩散模型分别对音频和面部特征信息、时域一致性做了处理和优化,最终通过一个解码器生成最终图像。作者与基于GAN和Diffusion的方法分别做了对比,再图像质量方面模型优势较大,再唇同步方面具有较强的竞争力。消融实验验证了两个模块中各个组件的有效性。

2025-03-19 15:14:47 642

原创 mysql笔记——索引

通过查看一个数据库中历史增删改查的频次,可以决定是否需要对其使用索引优化的策略。B树中叶子节点和非叶节点都会存储数据,导致段页式存储中一页存储的键值减少,指针也会减少,要同样保存大量数据,只能增加树的高度,导致性能降低。例如,联合索引(a,b,c)。查询需要从索引的最左列开始,并且不条约索引中的列。如果跳跃了某一列,后面的字段索引会失效。使用索引的长度,表示查询中使用的索引字段的字节数。查询实际使用的索引。显示索引列的比较条件,例如常量或某个列。表示查询中执行步骤的标识符,查询按照。查询中可能用到的索引。

2024-12-09 18:27:33 913

原创 动态规划——不同的二叉搜索树

根据二叉搜索树的特性,当根节点为i时,左子树必然有i-1个节点,右子树必然有n-i个节点,因此根节点为i时二叉树的数量为dp[i-1] * dp[n-i],因此只需求出所有dp[i] {i = 0、1…n}之和,即可求出dp[n]。本体解决问题的思路是:计算并存储小于当前整数的所有结果,用于计算当前整数的二叉树数量。用一个数组 dp[i],存储由i个节点构成的二叉树数量。**二叉搜索树的特性:**左子节点都。leetcode 96 题。

2024-12-06 10:21:42 269

原创 Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis论文随记

2.改进建模:将拓扑和几何解耦,引入弹性评分机制,在网格拓扑保持不变的情况下,精确控制变形,减少生成图像的局部抖动,实现了更准确的面部表情和姿势控制。3.接着,外观映射 G 利用预测的材料(Materials),结合光照模型 L,对三角形网格进行纹理映射和光照处理,最终生成逼真的对话头像图像。:基于 NeRF 等3D建模的方法在生成高分辨率图像时计算成本较高,如论文中提及的渲染过程中,处理复杂的光照和材质模型对计算量的需求很高。ε:引入非负弹性分数,不同面部位置弹性形变量不同,例如额头部位,一般形变较少。

2024-12-03 17:24:27 819

原创 回溯法——解数独

当某次回溯过程可以完整的执行完成二重循环,代表当前的数独中所有位置都已经填上了合适的数字,因此在结尾返回true表示得到答案。在每次递归调用是也需要判断true or false,如果位对的话也返回,不再执行后续操作,因为表示已经找到了答案。上述这行代码代表当某个位置不为‘.’时就会跳过本次循环,若遍历1-9都发现无法填入本位置,即代表当前搜索树中是找不到最优解的,因此返回。需要设置一个boolean类型返回值,当整个搜索树找到第一个解时,就代表整个题都找到了题解,因此需要设置返回值。

2024-11-21 16:01:26 182

原创 什么是并查集

【并查集】用于判断集合中任意一对元素是否相连。用于处理一些不相交集合的合并(union)和查询(find)操作。它主要用于解决连通性问题,常用于网络、图论等领域来快速判断两个元素是否属于同一个集合。为防止路径过长导致查询效率太慢,一般采用两种方式进行。

2024-11-05 16:39:26 201

原创 静态代码块为什么不能放在构造函数中

在类加载的时候执行,只执行一次,不管你创建多少个对象。它通常用于初始化和类相关的静态数据或资源。:每次创建一个对象的时候都会执行,用来初始化这个对象的属性。

2024-10-21 20:17:57 246

原创 什么是哈希Hash桶

哈希表的本质是一个通过哈希函数将键映射到数组索引的数据结构。数组中的每一个索引位置就可以称为一个“桶”(Bucket)。当两个或多个键通过哈希函数计算出相同的哈希值时,这些键值对就会被放入同一个桶中。

2024-10-21 17:11:52 816

原创 ubuntu20.04系统安装zookeeper简单教程

Apache Zookeeper是一个开源的分布式协调服务,广泛用于分布式应用程序中管理配置、提供命名服务、分布式同步以及组服务等。在本教程中,我们将详细介绍如何在Ubuntu系统中安装Zookeeper,并进行相关配置,使其能够正常运行。此外,Zookeeper依赖于Java环境,因此我们首先需要安装OpenJDK。运行以下命令安装OpenJDK 8(Zookeeper推荐使用JDK 8或更高版本),可以使用。为了方便在终端中调用Zookeeper命令,我们可以将Zookeeper的。

2024-09-27 21:51:03 2018 1

原创 力扣224. 基本计算器

解题思路:这道题的官方题解写得比较绕,虽然是使用栈的方法解题,但是并不需要将具体需要计算的数字压入栈中。栈只对加减号±操作,使用栈结构将所有的括号去除,例如。注意:不允许使用任何将字符串作为数学表达式计算的内置函数,比如 eval()。此时直接扫描计算即可,每当遇到正负号和左右括号时都需要对栈做相关的处理,遇到。输入: ( s=“(1+(4+5+2)-3)+(6+8)” )时当前位置真正的运算符号和栈顶符号相同,输入: ( s=“2-1+2” )输入: ( s=“1+1” )

2024-09-26 16:02:16 306

原创 Seeing What You Said Talking Face Generation Guided论文随记

然后,通过将视觉前端和在自监督中预训练的 Transformer 编码器与随机初始化的 Transformer 解码器相结合,构建唇读网络。一旦微调完成,唇读网络就会被冻结,并充当说话人脸生成训练的专家,如图 1 所示。视频编码器从图像中提取身份和姿势信息以形成统一的视觉嵌入,并将嵌入提供给生成器以合成与所提供的身份和姿势一致的图像。生成器由转置的CNN块组成,并且在视频编码器和生成器之前采用了想u-net一样的跳跃连接,在重建效果和计算效率之间取了均衡。唇读专家被冻结,使用交叉熵计算损失。

2024-09-19 19:38:52 912

原创 A Lip Sync Expert Is All You Need for Speech to Lip Generation

本文提出了一种在生成准确唇形同步视频的方法,并且提出了当前方法在对不受约束的视频进行口型同步时不准确的两个主要原因,第一点时预训练一个准确的唇形同步专家模块,第二点是提出了几个新的评估基准和指标以及一个现实世界中的评估数据集。以往相关的任务都对生成的身份或词汇等,有限制和约束,并且只接受特定说话人物的训练,无法合成新的身份或声音。这篇文章中提出的wav2lip,这几年在唇形生成乃至人脸生成的领域,几乎成为了必须被引用和对比的模型,在唇形同步等指标上广泛被参考和对比。第一个独立于说话者的模型,性能优秀。

2024-09-13 11:18:01 893 1

原创 redis

假设线程a执行完后,去释放锁。时,如果此时有大量的用户请求,都无法在 Redis 中处理,于是全部请求都直接访问数据库,从而导致数据库的压力骤增,严重的会造成数据库宕机,从而形成一系列连锁反应,造成整个系统崩溃,这就是。,导致请求在访问缓存时,发现缓存缺失,再去访问数据库时,发现数据库中也没有要访问的数据,没办法构建缓存数据,来服务后续的请求。如果锁过期的时候,并发多个客户端同时请求过来,都执行jedis.getSet(),最终只能有一个客户端加锁成功,但是该客户端锁的过期时间,可能被别的客户端覆盖。

2024-06-20 17:14:16 695

原创 Identity-Preserving Talking Face Generation with Landmark and Appearance Priors

首先,我们设计了一个transformer为基础的地标生成器,从音频获得准确的唇和下巴的标志。给定音频序列和初始输入视频,本文目标是逐帧完成输入视频的下半部分被遮挡的脸部来生成口型同步的说话脸部视频。在推理过程中,将生成的全脸粘贴到原始帧上,由于生成的人脸可能包括一小部分伪影背景,通过高斯平滑的人脸mask将生成人脸与原始帧的背景合成,如图。此处输入数据主要由三部分组成,取连续5帧,音频数据和先前的landmarks为输入,主要是嘴唇和下巴位置的坐标。上方公式左侧代表第t层,下巴和嘴唇处预测得到的坐标。

2024-05-08 16:01:47 1296

原创 SyncTalk The Devil is in the Synchronization for Talking Head Synthesis|论文随记

如图2所示。SyncTalk主要由3部分组成:a)由FaceSync控制器控制的嘴唇运动和面部表情,b)由HeadSync稳定器提供的稳定头部姿势,c)由动态肖像渲染器渲染的高同步面部帧。

2024-03-08 15:55:38 1436 1

原创 分布式搜索elaticsearch-数据CRUD操作方法

先从mysql数据库中查询到所需要新增的数据后,将其转换为文档类型,再通过client插入。下方代码展示了局部更新的例子,操作只更新提到的参数,其余未提到的参数保持不变。从MySQL数据库中查询到相关数据后,将其转化为json格式,存入。

2024-01-23 21:01:59 414 1

原创 SpringAMQP的使用

消息传递中,传递对象的序列换与反序列化都是JDK的默认实现,可以将其修改为jackson实现。发送信息示例代码:在publisher服务中新建一个测试类,编写测试方法。也需要在yml文件中添加rabbit配置。在consumer中新建一个类,添加。AMQP是一种消息通信的协议。

2024-01-23 12:33:43 506 1

原创 docker操作简介

Docker 是一种轻量级的容器化平台,允许您打包应用程序及其依赖项、配置和运行时环境为一个统一的容器。以上命令是 Docker 中常用的一些基本操作,帮助您管理镜像和容器。通过这些操作,您可以轻松部署、运行和管理 Docker 容器化的应用程序。以上命令是 Docker 中常用的一些基本操作,帮助您管理镜像和容器。通过这些操作,您可以轻松部署、运行和管理 Docker 容器化的应用程序。显示所有的 Docker 容器,包括正在运行和已停止的。通过 Dockerfile 构建新的镜像,使用。

2024-01-21 14:55:27 478

原创 网关gateway服务搭建

uri:路由的目标地址,lb代表根据服务名负载均衡。predicates:判断路由的规则。id:路由的唯一标识。

2024-01-20 16:42:33 468

原创 Eureka服务

其他模块如果需要使用微服务调用http请求获取其他服务的功能,需要先在eureka服务端进行注册,然后即可通过eureka调用其他模块的服务。注册的步骤是,引入依赖,再添加注册配置信息。引入maven依赖,添加server启动类注解,注册url和端口号之后,服务端搭建完成。需要有一个注册服务的module。

2024-01-10 12:45:22 417 1

原创 MetaPortrait Identity-Preserving Talking Head Generation

模型按照上图2,可以分为四个部分如下:(a)给定源图像和t个驱动帧序列,对其提取Landmark特征并编码;(b)根据concate的输入,估计源图像和驱动帧之间的扭曲流www;(c)使用ID保持网络,进一步细化扭曲后的输入源图像;(d)增强上采样并生成最终的高分辨率图像。

2023-12-09 15:26:40 356

原创 Implicit Identity Representation Conditioned Memory Compensation Network

首先用关键点检测器,得到成对的驱动和源图像的K对关键点;估计两个关键点得到密集运动流,对源图像特征进行扭曲后得到扭曲特征;将关键点特征和扭曲特征一起经过MLP编码送入IICM模块,以编码隐式身份表征。它将作为元存储Mo的查询条件,来产生源身份相关的存储体Ms;内存补偿模块(MCM),在获得Ms之后,利用动态交叉注意机制在MCM模块中对变形的源特征图进行空间补偿,然后输出补偿后的特征图Fi cpt。通过解码器解码生成目标图像。

2023-12-04 16:22:50 193

原创 Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation

利用优化后的EAT模型和我们的训练损失,我们仅在映射网络和EAM模块中添加额外的CLIP损失进行微调。具体而言,我们使用CLIP的图像编码器从预测的说话脸中提取图像嵌入,使用其文本编码器从描述中提取文本嵌入。(b) 我们的 EAT 通过灵活的指导,包括情感提示或文本引导的 CLIP 监督,通过轻量级的调整,将情绪不可知的头部说话模型转变为情绪可控的模型。这消除了对情感训练数据的需求,并能够推广到需要罕见表情的应用。,提出了一种参数高效的情感适应方法,用于快速适应预训练的说话头模型,以应对情感说话头任务。

2023-11-23 11:47:31 463

原创 Learning Dynamic Facial Radiance Fields for

与传统的图像生成模型不同,NeRF 不仅仅生成颜色值,还生成了与场景中每个点的方向相关的辐射亮度。(例如说话时嘴唇的变形,嘴角附近的3D点被映射回参考图像,可能会偏离正确的口型)。大量的实验表明,本文方法在有限的训练数据和迭代下,生成的自然说话视频具有优越性。对于一个任意的人,只有一个短的训练视频剪辑可用,一个个性化音频驱动的人像动画模型与高质量的合成结果应该只需要几次迭代的微调。对于一个任意的未见过的身份,只需要一个简短的训练片段,只需要他/她的几十秒的讲话视频,基于预训练的基础模型进行微调。

2023-11-16 10:24:00 292 1

原创 Flow-guided One-shot Talking Face Generation with a High-resolution

本文的方法也获得了最好的结果。的生成中,给定一对面部动画参数,3DMM能够在内面部生成精确的密集运动流(图5(b)中的绿色部分)。然而,3DMM 无法描述面部区域之外的运动(图 5 (b) 中的蓝色和橙色部分)。与sota的方法进行定量和定性比较,在HDTF数据集上对比的结果如下,可以观察到,本文的方法具有很强的竞争力。提出了一个新的流引导的框架,由一个动画生成器和一个流引导的视频生成器构成。​ 如图5(b)所示,将面部图像裁剪为三个部分:内面部部分(绿色)、上躯干部分(橙色)和头部相关部分(蓝色)。

2023-11-11 22:55:13 1258 1

原创 springboot打包jar运行报错——*Exception in thread “main“

因为idea运行的时候,直接从代码运行,没有通过maven打包成jar再运行。maven打包jar,根据pom.xml进行打包配置的,这个文件找不到,jar包的main启动class出错,就报错了。修改pom.xml文件中的如下部分,原有的配置只填写了启动类的名称而忽略了位置。在本地测试项目打包,打包成jar之后尝试在cmd运行。为什么在idea运行的时候没有报错?

2023-11-04 14:33:42 1639 1

原创 论文随记|Depth-Aware Generative Adversarial Network for Talking Head Video Generation

网络可分为三个部分:(1)人脸深度网络FdF_{d}Fd​(2)深度引导稀疏关键点检测子网络FkpF_{kp}Fkp​,输入源和驱动图像,使用FdF_{d}Fd​生成的深度图与相应的RGB图像结合,学习用于检测面部关键点的几何和外观特征,可以生成可用于生成人脸的相对运动场(3)特征扭曲模块,接收关键点作为输入来生成运动场,运动场用于扭曲源图像特征图以与外观信息融合,从而产生扭曲的特征FwF_{w}Fw​。为了强制模型专注于面部结构和微表情运动,模型使用源深度图D。

2023-11-03 22:01:56 341

原创 youtube-dl报错解决

发现这个项目比youtube-dl更新更全面,因此我选择了在脚本中用yt-dlp替换youtube-dl工具,成功解决了报错问题并开始正常下载视频。​ 通过报错的信息和搜索,得到可能是如下问题:youtube-dl版本太旧,我是2021.12版本的,我感觉确实是有些旧了,结果上github官方查看发现已经是最新版本。最后在stackflow论坛得知此项目好像已经被作者放弃。在下载HDTF数据集中遇到了此问题,因为需要从youtube上直接下载视频,官方作者所给的脚本运行发生错误。

2023-10-30 21:44:26 5042 2

原创 DPE Disentanglement of Pose and Expression for General Video Portrait Editing

​ 设计一组用于解耦合的约束,如图三所示的三条虚线所一一对应的元组,即、和。是解开纠缠的核心,即和对,可以驱动生成器输出有意义的面部,并且鼓励编辑模块提取准确的姿势和表情。该指示器指示要编辑的源图像的姿势或表情。​ 文中通过举一个矩形缩小的例子,来说明对于表情和姿势生成器的训练需要加上一定的约束,否则不能将两种信息进行解耦合。​ 对于接受驱动图像的运动编码器,没有使用单独的编码器,而是根据编码器的潜在空间构建运动空间。

2023-10-25 11:00:39 324

原创 多种学习方法

自监督学习是一种监督学习变种,它侧重于从未标记的数据中自动生成训练信号。例如,在计算机视觉中,可以设计任务来预测图像中的像素值或图像的旋转角度。在监督学习中,模型使用具有明确标签的训练数据进行学习。监督学习适用于各种任务,如图像分类(将图像分为不同类别)、语音识别、自然语言处理中的命名实体识别等。迁移学习是一种学习方式,其中一个模型在一个任务上进行训练,然后将已学到的知识应用于另一个相关任务上。在医学图像分析中,例如,一个图像可能包含多个肿瘤,模型的任务是确定图像中是否存在肿瘤。

2023-10-22 18:02:28 82 1

原创 论文随记|One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field基于可变形神经辐射场的o

​ LED 采用顶点到像素对应和位置编码来学习逐点 3D 变形。它既轻量又高效,因为它不需要为每个采样点找到最近的驱动网格顶点并显式计算其与相应规范网格顶点的距离。此外,LED 中的编码器和解码器网络是完全卷积的且非常浅,因此在计算上比其他基于 MLP 的变形场要高效得多。

2023-10-21 14:59:59 312 1

原创 MyBatis

三个注解分别代表getter、setter方法,有参无参构造方法。可以简化实体类的定义。既可以作用在函数上,也可以作用在类上,连接后组成完整的路径。

2023-10-20 11:48:00 49 1

原创 DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation制作广义音频驱动人像动画的扩散模

提出了一种条件扩散模型用于talking head生成。引入平滑信号作为条件,生成过程是音频驱动、与时间相关的去噪过程

2023-10-19 17:46:41 672 1

原创 【操作系统原理要点笔记 附带英文词汇】

Command-Line(CLI),GraphicsUserInterface(GUI),Batch命令行(CLI)、图形用户界面(GUI)、批处理manipulation操纵facilities设施Accounting核算parameter参数Statusinformation状态信息implementaregistryimplementaregistrystoreandretrieveconfigurationinformation存储和检索配置信息overhead开销Interpro

2022-03-08 13:15:36 1711

原创 定义学生类: 定义教师类:

定义学生类:(1)有平时(int)、期末成绩(int)、组成比例(float)三个私有数据成员;(2)有成员函数setProp,根据键盘输入,设置组成比例,取值在0到1之间,比如0.4,则表示成绩=平时40%+期末60%;(3)有计算并输出成绩函数compScore,根据组成比例计算并输出成绩。定义教师类:(1)有私有数据成员stu,是学生对象指针;(2)有构造函数,带整型参数,以其值为大小创建学生对象数组,用stu指向;(3)有成员函数assign,参数为数组下标,用于为一个学生对象设置平时

2021-03-22 23:19:06 1560

RabbitMQ.pdf

RabbitMQ.pdf

2024-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除