自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

沉迷单车的追风少年

夫川竭而谷虚,丘夷而渊实。圣人已死,则大盗不起,天下平而无故矣。圣人不死,大盗不止。虽重圣人而治天下,则是重利盗跖也。

  • 博客(975)
  • 资源 (54)
  • 收藏
  • 关注

原创 畅游Diffusion数字人(0):专栏文章导航

畅游Diffusion数字人(0):专栏文章导航

2024-11-26 19:27:04 717 2

原创 Diffusion Models视频生成-博客汇总

Diffusion Models视频生成-博客汇总

2023-10-28 12:44:08 4466 31

原创 手把手写深度学习(0):专栏文章导航

手把手写深度学习(0):专栏文章导航

2023-09-27 18:40:27 1384 14

原创 Diffusion models代码解读:入门与实战

Diffusion models代码解读:系列文章汇总导航

2022-09-24 12:08:13 15686 63

原创 Diffusion Models专栏文章汇总:入门与实战

《DiffusionModels与深度学习》专栏文章导航

2022-02-21 21:55:40 38254 43

原创 手把手写C++服务器(0):专栏文章-汇总导航【持续更新】

手把手写C++服务器(1):网络编程常见误区手把手写C++服务器(2):C/C++编译链接模型、函数重载隐患、头文件使用规范手把手写C++服务器(3):C++编译常见问题、编译优化方法、C++库发布方式手把手写C++服务器(4):Linux四大必备网络分析工具手把手写C++服务器(6):编译实操——打开gcc/g++世界手把手写C++服务器(7)——给C语言程序员看的C++科普手把手写C++服务器(8):常用boost之program_options命令行参数解析

2021-07-28 11:58:34 4747 51

原创 经典必刷LeetCode汇总

LeetCode题目分类Hash相关q1_两数之和链表操作q2_两数相加 q19_删除链表的倒数第N个节点 q61_旋转链表 q138_复制带随机指针的链表 q206_反转链表双指针遍历/滑动窗口q3_无重复字符的最长子串 q11_盛最多水的容器 q15_三数之和 q16_最接近的三数之和 q26_删除排序数组中的重复项 q42_接雨水 q121_买卖股票的...

2020-04-12 15:04:05 4031 2

原创 畅游Diffusion数字人(20):FLAME代码解读与实现

​之前的博客《畅游Diffusion数字人(17):更强大的人脸和表情表达方法 FLAME:Learning a model of facial shape and expression》讲解了FLAME的原理,这篇博客主要讲解一下FLAME的代码实现。

2025-03-11 11:54:53 540

原创 from psbody.mesh import MeshModuleNotFoundError: No module named ‘psbody‘

DiffposeTalk复现。

2025-03-08 16:52:49 267

原创 畅游Diffusion数字人(19):NIPS 2024 Oral实时音频驱动数字人 VASA-1

今天要介绍微软亚洲研究院的一篇NIPS 2024论文,在公开的rebuttle阶段宣布即将开源模型,时至今日依然没有开源引发热议。今天笔者就详细解读一下这篇论文,和读者们一起学习一下。

2025-03-08 09:30:00 288

原创 畅游Diffusion数字人(18):使用Diffusion Models生成FLAME数字人DiffPoseTalk

上一篇博客《畅游Diffusion数字人(17):更强大的人脸和表情表达方法 FLAME:Learning a model of facial shape and expression》讲了如何FLAME用来表达人脸和表情的优势,这篇博客介绍一下如何用Diffusion Models生成FLAME数字人。

2025-03-07 09:30:00 296

原创 畅游Diffusion数字人(17):更强大的人脸和表情表达方法 FLAME:Learning a model of facial shape and expression

FLAME(Faces Learned with an Articulated Model and Expressions)是一种用于生成和模拟三维人脸形状及表情的参数化模型。他的表达准确和便捷,以至于时至今日依旧流行。这篇博客从论文和代码学习一下FLAME。

2025-03-06 10:15:00 2162

原创 如何在服务器上并行化快速下载VFHQ数据集?A High-Quality Dataset and Benchmark for Video Face Super Resolution

虽然VFHQ是一个2022年的工作,但是数据集的质量非常高,导致三年过去了还是非常好用。那时候huggingface还没有流行,所以并没有托管到huggingface上,导致现在非常难快速下载。这篇博客提供一种并行化快速下载的方法,能够快速下载这个超大数据集。

2025-03-05 15:07:21 149

原创 如何在无图形化界面的服务器上下载百度网盘的超大文件(10GB以上)?

登录百度网盘账号进入特定的文件夹下载完整教程

2025-03-04 20:23:58 303

原创 原理和代码解读:音频驱动数字人经典项目AniPortrait

现在基于Diffusion的音频驱动数字人的工作有很多,其效果也是各有千秋。这篇博客解读一篇经典的工作AniPortrait,搞懂这篇经典之作,对于理解其他数字人的工作有很多好处。

2025-03-01 11:46:49 528

原创 原理和代码解读:通义万相 WanX 2.1 视频生成模型

昨晚通义万相 WanX 2.1开源了,在多个指标上超越了sora、可灵、runway、hunyuan等模型。但是生成类的任务不能仅仅只看指标,实际的效果怎样?WanX 2.1 的技术架构是怎样的?有哪些技术改进?如何从T2V改造成I2V的模型的?这篇博客从原理和代码上详细解读这些问题。

2025-02-26 15:19:27 961

原创 手把手写深度学习(33):从视频中提取人脸的landmarks并可视化

训练数字人或人脸识别检测相关的模型经常要使用人脸的landmarks。这篇博客讲解如何从视频中提取人脸的landmarks并可视化。

2025-02-24 21:17:06 523

原创 论文和代码解读:Training Free的FLUX图像编辑方法Stable Flow

图像编辑一直是显卡资源不充足的研究组首选的 Diffusion 研究方向,当然不仅仅是这个方向对资源的要求比较低,更多是因为用于图像编辑的大规模配对数据集实在很难获取。其实图像编辑可以泛化到很多low-level方向,如去噪、去雾、去雨等,是一个广义上的image-to-image任务。

2025-02-22 11:31:54 299

原创 代码解读:如何将HunYuan T2V模型训练成I2V模型?

HunYuan T2V模型出来很久了,但是想要训练成I2V的模型还是有点难度。此外,还有很多预训练视频模型都是T2V的,可以借鉴本文的方法加入参考图作为条件,并严格保持视频的第一帧与Image一样。

2025-02-19 19:42:13 514 2

原创 畅游Diffusion数字人(16):由音乐驱动跳舞视频生成

从Pose到跳舞视频生成的工作非常多,但是还没有直接从音乐驱动生成的工作。最近字节跳动提出了MuseDance,无需复杂的动作引导输入(如姿势或深度序列),从而使不同专业水平的用户都能轻松进行灵活且富有创意的视频生成。

2025-02-10 10:48:17 565

原创 RF-Solver(Taming Rectified Flow for Inversion and Editing) 代码解读

之前在博客《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》中介绍了一种RF反演方法RF-Solver的原理,这篇博客从实战角度出发,详细解读其代码。

2025-02-06 09:00:00 489

原创 畅游Diffusion数字人(15):详细解读字节跳动最新论文——音频+姿态控制人类视频生成OmniHuman-1

昨晚字节跳动刚发布了一篇音频+姿态控制人类视频生成OmniHuman-1的论文,效果非常炸裂,并且是基于最新的MM-DiT架构,今天博主详细解读一下这一技术。

2025-02-05 11:54:31 878

原创 在Hunyuan Video上实现RF-Inversion

​前面的博客《论文和代码解读:RF-Inversion 图像/视频编辑技术》,但是原始代码是基于FLUX和SD3实现的,这篇博客讲解一下如何在Hunyuan Video上实现RF-Inversion 。

2025-02-03 12:24:43 457 2

原创 论文和代码解读:RF-Inversion 图像/视频编辑技术

​Rectified Flow的反演和DDIM这些不太一样,上一篇博客中介绍了腾讯提出的一种方法《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》,主要就是用泰勒展开和一阶导数近似来分解反演公式。这篇博客介绍谷歌提出的方法RF-Inversion,这篇工作更有名,贡献度更高。

2025-02-01 10:45:00 629

原创 基于Rectified Flow FLUX的图像编辑方法 RF-Solver

现在越来越多的开源模型是基于Rectified Flow,特别是FLUX和HunYuan Video,但是Rectified Flow inversion的性质和之前有所不同,这篇博客解读一下如何使用Rectified Flow对FLUX进行编辑。

2025-01-31 22:40:35 1087

原创 视频外绘技术总结:Be-Your-Outpainter、Follow-Your-Canvas、M3DDM

视频Inpaint的技术很火,但是OutPaint却热度不高,这篇博客总结比较经典的几篇视频Outpaint技术。其实Outpaint在runway等工具上很火,可是学术界对此关注比较少,博主从这三年的顶会中找到了最具代表性的三篇论文解读。

2025-01-27 23:17:55 1577

原创 论文解读:上海交大最新论文基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR

尽管扩散模型在图像生成和修复方面表现出色,但其在视频超分辨率中的应用面临时间闪烁问题,扩散模型的随机性会导致视频帧之间出现突然的过渡,产生时间上的闪烁伪影。这篇博客介绍一种基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR。

2025-01-21 10:50:48 559

原创 畅游Diffusion数字人(14):基于3D人体网格的语音驱动手势视频生成 ECCV 2024

根据语音输入生成与说话内容、情感和节奏相匹配的自然、流畅且逼真的手势视频。该技术在虚拟形象、虚拟现实、动画制作等领域具有重要应用价值。然而这方面的研究非常少,这篇博客解读一篇ECCV2024的最新论文。

2025-01-20 09:00:00 710

原创 畅游Diffusion数字人(13):首个基于DiT的高清肖像视频生成HALLO3

基于Unet的HALLO1和HALLO2非常成功,HALLO3是首个基于DiT的高清肖像视频生成的技术,也是完全开源的,在开源社区获得了非常多的好评。这篇博客就详细解读一下HALLO3。

2025-01-19 15:57:26 537

原创 详细解读多人脸ID视频生成技术 Ingredients: Blending Custom Photos with Video Diffusion Transformers

单个人脸ID控制视频生成的论文很多,效果也很不错。但是多个人脸ID控制视频生成的工作很少,基于DiT的工作更是凤毛麟角。这篇博客详细解读多人脸ID视频生成技术Ingredients:BlendingCustomPhotoswithVideoDiffusionTransformers

2025-01-19 15:42:01 252

原创 Low-Level 大一统:如何使用Diffusion Models完成视频超分、去雨、去雾、降噪等所有Low-Level 任务?

视频在传输过程中常常因为各种因素(如恶劣天气、噪声、压缩和传感器分辨率限制)而出现质量下降,这会严重影响计算机视觉任务(如目标检测和视频监控)的性能。现有的视频修复方法虽然取得了一些进展,但通常只能针对特定的退化类型,需要为每种任务训练单独的模型。这种方法在现实应用中成本高昂且不切实际,因为实际场景中往往存在多种退化因素。这篇博客介绍一种使用DiffusionModels完成视频超分、去雨、去雾、降噪等所有Low-Level任务的方法。

2025-01-17 19:00:00 700

原创 解读HunYuan Video代码(1):揭秘核心双流+单流的MM-DiT结构

FLUX和HunYuan-Video是目前开源效果最好的图像生成模型和视频生成模型,背后成功的关键之一就是双流+单流MM-DiT。很多社区的朋友讨论说DiT的效果很多方面表现不如UNet,诚然,改进版本双流+单流MM-DiT才是彻底击败UNet的关键。这篇博客是解读HunYuan Video代码的第一篇,首先解读最核心的网络结构。

2025-01-16 20:45:00 1488

原创 手把手写深度学习(32):给初学者看的微调HunYuan Video教程

​之前的博客《代码实战:使用LoRA训练HunYuan Video生成定制肖像视频(附调参经验)》中介绍了如何用LoRA训练HunYuan Video,非常适合定制自己的ID特征。这篇论文将从更基础的方面讲解如何微调HunYuan Video,主要给第一次训练HunYuan Video的初学者。

2025-01-15 15:40:03 655

原创 基于CogVideoX的视频超分技术

​上周博主解读了字节的SeedVR《详细解读AIGC视频超分/修复技术 SeedVR Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration》,这个工作并不开源。这篇博客解读一个开源的基于CogVideox视频超分工作,效果很赞。

2025-01-10 15:27:03 635

原创 【SIGGRAPH 2025】详细解读3D点云控制视频生成论文 Diffusion as Shader: 3D-aware Video Diffusion for Versatile

首先恭喜学术届的视频生成正式进入CogVideox5B时代!也许以后再也不用AnimateDiff/SVD/Open-Sora这些效果很差的“破玩具”了。这次博主给大家带来投稿至图形学顶会SIGGRAPH 2025的论文《Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control》,是一篇基于CogVideox5B的3D点云控制的工作,效果很赞,思路也有很多值得借鉴的地方。

2025-01-09 11:23:52 731 1

原创 代码实战:使用LoRA训练HunYuan Video生成定制肖像视频(附调参经验)

使用Diffusion Models定制肖像图片的教程很多,效果也很不错。之前也有基于AnimateDiff/CogVideox定制肖像视频工作,但是相比于HunYuan Video效果差距很大。毫不夸张的说,HunYuan Video生成定制肖像视频已经能达到以假乱真的程度!这篇博客主要讲述如何通过几张自己的肖像照片,使用LoRA训练HunYuan Video生成定制肖像视频。

2025-01-08 11:58:00 777

原创 每日AIGC最新进展(80): 重庆大学提出多角色视频生成方法、Adobe提出大视角变化下的人类视频生成、字节跳动提出快速虚拟头像生成方法

此外,进行了一系列一致性实验,以验证每个角色和背景的生成效果,确保生成视频的时间一致性。具体来说,在DyMVHumans数据集中,我们的模型在生成质量和表现一致性方面均表现优异,证明了多参考图像训练的有效性,并展示了在不同视角下的强大适应能力。我们的实验表明,FADA在多个数据集上生成的视频既生动又具有竞争力的质量,同时实现了4.17到12.5倍的推理速度提升。通过适应性调整教师模型和学生模型之间的学习权重,学生模型可以在保留教师模型高质量生成能力的同时,利用更多的中等质量数据来增强其泛化能力。

2025-01-07 00:15:49 1020

原创 详细解读AIGC视频超分/修复技术 SeedVR Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

2025年low-level领域继续被Diffusion Models“青春风暴”,这篇博客给大家带来字节跳动基于DiT的视频超分模型SeedVR,论文作者曾经出品过Upscale-A-Video、Codeformer等经典超分作品,这篇博客非常值得学习。

2025-01-05 23:57:26 1220 2

原创 代码实战:基于InvSR对视频进行超分辨率重建

​上一篇博客《使用Diffusion Models进行图像超分辩重建》中讲解了InvSR的原理,博主实测的效果是非常不错的,和PASD基本持平。这篇博客就讲解如何利用InvSR对视频进行超分辨率重建。

2025-01-03 09:15:00 913

原创 使用Diffusion Models进行图像超分辩重建

图像超分辨率重建是一个经典CV任务,其实LR(低分辨率)和 HR(高分辨率)图像仅在高频细节上存在差异。通过添加适当的噪声,LR 图像将变得与其 HR 对应图像无法区分。这篇博客介绍一种方式巧妙利用这个规律使用Diffusion Models进行图像超分辩重建任务。

2025-01-02 21:00:00 2086

国内大厂-后台开发面经汇总(5万字).zip

国内大厂-后台开发面经汇总(5万字).zip

2021-08-03

电子信息/通信/计算机专业 保研资料汇总

针对电子信息类专业、通信工程类专业、计算机科学与技术类专业的保研资料汇总,资料内含有完整的院校简介、夏令营信息、个人介绍模板、教授推荐信模版、自荐信模版、面试攻略、各大院校面试经验、英文自我介绍、英文问答、心路历程等,共100余篇资料,是笔者去年准备夏令营面试时候收集的。

2021-05-28

中国大学生计算机设计大赛·国家级一等奖作品·资料汇总

中国大学生计算机设计大赛国家级一等奖作品,包括完整答辩视频、答辩PPT、万字经验总结、演示视频、作品源代码、作品海报介绍、详细教程等等

2021-05-19

ShapeNet数据集

ShapeNet是一个由对象的三维CAD模型表示的丰富注释的,大规模的形状存储库。ShapeNet包含来自多种语义类别的3D模型,并按照WordNet分类法组织它们。它是一组数据集,为每个3D模型提供许多语义标注,如一致的刚性对准、零件和双边对称平面、物理尺寸、关键字以及其他计划的标注。注释通过基于web的公共接口提供,以支持对象属性的数据可视化,促进数据驱动的几何分析,并为计算机图形学和视觉研究提供大规模定量基准。ShapeNet已经索引了超过300万个模型,其中22万个模型被分为3135个类别(WordNet synsets)。

2021-02-05

西安电子科技大学-《数字图像处理》PPT课件全套

西安电子科技大学-《数字图像处理》PPT课件全套;全套课件汇总;通信工程学院;计算机学院;电子工程学院;人工智能学院等;

2020-11-30

西安电子科技大学射频电路实验报告

西安电子科技大学射频电路实验报告;射频实验;射频电路;射频实验报告;电子工程学院;通信工程学院;空间科学与技术学院等

2020-11-30

西安电子科技大学-返校宣讲PPT

2020年西安电子科技大学返校宣讲PPT;上传时设置所需积分为0!!主要用于本科生招生;制作精美;主要用于西安电子科技大学对中学生的宣传工作;

2020-11-16

西安电子科技大学 数字图像处理 大作业源代码

西安电子科技大学《 数字图像处理》大作业全部源代码;电子工程学院;通信工程学院;人工智能学院;空间科学与技术学院等

2020-11-10

西安电子科技大学 射频电路 全套课件

西安电子科技大学——射频电路——所有全套课件,可供期末预习和考研参考;射频;射频电路设计;电子工程学院;通信工程学院;空间科学与技术学院;

2020-11-10

2020年全国大学生计算机能力挑战赛官方真题

2020年全国大学生计算机能力挑战赛官方真题;主要涉及程序语言设计、基础语言知识、算法与数据结构题目等

2020-09-27

北京邮电大学信通院和人工智能学院导师组介绍

北京邮电大学 信息和通信工程学院 人工智能学院 导师组介绍 招生联系方式 招生名额 招生要求 宣讲会资料

2020-08-30

西北工业大学 空气动力学 期末考试试卷

西北工业大学《空气动力学》 期末考试试卷,空气动力学题库,可供西工大航空学院、航天学院、航海学院等使用,极具参考价值!

2020-08-16

西安电子科技大学专属信纸底板.docx

西安电子科技大学专属信纸底板,可用于联系外校导师、介绍信、联系国外导师(有英文)等用途,欢迎校友下载

2020-06-26

2020年西安电子科技大学B测源代码.zip

2020年西安电子科技大学B测源代码,B测是所有西电本科生毕业必须要做的测试之一,这是笔者准备2020年西电B测的源代码供参考。

2020-06-26

Go语言TCP通信客户端和服务器端(包含代码和可执行程序)

基于Go语言的TCP通信客户端和服务器端,包含代码和可执行程序,详细操作在资源README文件里有说明!

2020-04-06

西安电子科技大学《通信原理》期末试题.pdf

历年西安电子科技大学《通信原理》期末试卷汇总;西安电子科技大学通信工程学院、电子工程学院期末复习、考研参考

2020-01-08

2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总.zip

2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总;三年所有试卷;西电复印店只能买到2016年之前的试卷!

2020-01-08

2019年西安电子科技大学《自动控制原理》期末试卷

2019年西安电子科技大学《自动控制原理》期末试卷;西电的复印店最早的试卷只有2016年的!自动控制原理、系统控制工程均可参考

2020-01-08

Generative Adversarial nets鉴赏.pdf

Ian Goodfellow2014年生成对抗网那篇开山论文的赏析讲解,经典中的经典!对搞GAN的会有帮助的

2019-09-27

2011年-2017年全国大学生电子综合测评所有仿真电路图大全

2011年-2017年全国大学生电子综合测评所有仿真电路图和参考数据手册大全,是作者之前准备复测电赛复测时整理的

2019-08-16

Webvid-10M 数据集-第四部分

Webvid-10M 数据集-第四部分

2024-09-23

Webvid-10M数据集 完整版-第一部分

Webvid-10M原始数据集完整版-第一部分,使用方法请看博客:https://blog.youkuaiyun.com/qq_41895747/article/details/136092783

2024-09-23

Webvid-1M原始数据集完整版-第三部分

Webvid-1M原始数据集完整版-第三部分

2024-09-23

Webvid-1M原始数据集完整版-第二部分

Webvid-1M原始数据集完整版-第二部分,使用方法请看博客:https://blog.youkuaiyun.com/qq_41895747/article/details/136092783

2024-09-23

数学专业考研复试资料:实变函数与泛函分析要点

数学专业考研复试资料:实变函数与泛函分析要点

2022-02-17

数学专业 考研复试 面试真题汇总(2)

数学专业 考研复试 面试真题汇总(2)

2022-02-17

《常微分方程》考研考点精讲及思路解析

《常微分方程》考研考点精讲及思路解析

2022-02-17

基于pluto的通信系统-发送接收端matlab代码-点对点通信

西电通院/电院 通信原理 大作业

2021-12-13

手写英文字母数据集【附使用方法】

使用方法和例子详见:https://xduwq.blog.youkuaiyun.com/article/details/121479913

2021-11-29

2021年 华中师范大学 数学分析 考研真题

2021年 华中师范大学 数学分析 考研真题

2021-11-28

【期末考试答案】信息素养——学术研究的必修课

【期末考试答案】信息素养——学术研究的必修课

2021-11-16

天文学-全部课件(全)

天文学-全部课件(全)

2021-10-31

《教育知识与能力》中学教资教材

《教育知识与能力》中学教资教材

2021-10-31

2021 842真题回忆整理

2021 842真题回忆整理

2021-10-31

小学信息学竞赛-第2课

小学信息学竞赛-第2课

2021-10-31

小学信息学课件-第1课信息学编程入门

小学信息学课件-第1课信息学编程入门

2021-10-31

普通话考试 高分通过秘籍指南

普通话考试 高分通过秘籍指南

2021-10-31

中医证素辨证挖掘与疾病的关系

中医证素辨证挖掘与疾病的关系

2021-10-31

2019年(下)全国教师资格证中学-科目二

2019年(下)全国教师资格证中学-科目二

2021-10-31

2021年(上)全国中学教资资格证考试-科目二

2021年上半年 全国中学生教育资格证考试 科目二 教育学原理

2021-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除