- 博客(975)
- 资源 (54)
- 收藏
- 关注

原创 手把手写C++服务器(0):专栏文章-汇总导航【持续更新】
手把手写C++服务器(1):网络编程常见误区手把手写C++服务器(2):C/C++编译链接模型、函数重载隐患、头文件使用规范手把手写C++服务器(3):C++编译常见问题、编译优化方法、C++库发布方式手把手写C++服务器(4):Linux四大必备网络分析工具手把手写C++服务器(6):编译实操——打开gcc/g++世界手把手写C++服务器(7)——给C语言程序员看的C++科普手把手写C++服务器(8):常用boost之program_options命令行参数解析
2021-07-28 11:58:34
4747
51

原创 经典必刷LeetCode汇总
LeetCode题目分类Hash相关q1_两数之和链表操作q2_两数相加 q19_删除链表的倒数第N个节点 q61_旋转链表 q138_复制带随机指针的链表 q206_反转链表双指针遍历/滑动窗口q3_无重复字符的最长子串 q11_盛最多水的容器 q15_三数之和 q16_最接近的三数之和 q26_删除排序数组中的重复项 q42_接雨水 q121_买卖股票的...
2020-04-12 15:04:05
4031
2
原创 畅游Diffusion数字人(20):FLAME代码解读与实现
之前的博客《畅游Diffusion数字人(17):更强大的人脸和表情表达方法 FLAME:Learning a model of facial shape and expression》讲解了FLAME的原理,这篇博客主要讲解一下FLAME的代码实现。
2025-03-11 11:54:53
540
原创 from psbody.mesh import MeshModuleNotFoundError: No module named ‘psbody‘
DiffposeTalk复现。
2025-03-08 16:52:49
267
原创 畅游Diffusion数字人(19):NIPS 2024 Oral实时音频驱动数字人 VASA-1
今天要介绍微软亚洲研究院的一篇NIPS 2024论文,在公开的rebuttle阶段宣布即将开源模型,时至今日依然没有开源引发热议。今天笔者就详细解读一下这篇论文,和读者们一起学习一下。
2025-03-08 09:30:00
288
原创 畅游Diffusion数字人(18):使用Diffusion Models生成FLAME数字人DiffPoseTalk
上一篇博客《畅游Diffusion数字人(17):更强大的人脸和表情表达方法 FLAME:Learning a model of facial shape and expression》讲了如何FLAME用来表达人脸和表情的优势,这篇博客介绍一下如何用Diffusion Models生成FLAME数字人。
2025-03-07 09:30:00
296
原创 畅游Diffusion数字人(17):更强大的人脸和表情表达方法 FLAME:Learning a model of facial shape and expression
FLAME(Faces Learned with an Articulated Model and Expressions)是一种用于生成和模拟三维人脸形状及表情的参数化模型。他的表达准确和便捷,以至于时至今日依旧流行。这篇博客从论文和代码学习一下FLAME。
2025-03-06 10:15:00
2162
原创 如何在服务器上并行化快速下载VFHQ数据集?A High-Quality Dataset and Benchmark for Video Face Super Resolution
虽然VFHQ是一个2022年的工作,但是数据集的质量非常高,导致三年过去了还是非常好用。那时候huggingface还没有流行,所以并没有托管到huggingface上,导致现在非常难快速下载。这篇博客提供一种并行化快速下载的方法,能够快速下载这个超大数据集。
2025-03-05 15:07:21
149
原创 原理和代码解读:音频驱动数字人经典项目AniPortrait
现在基于Diffusion的音频驱动数字人的工作有很多,其效果也是各有千秋。这篇博客解读一篇经典的工作AniPortrait,搞懂这篇经典之作,对于理解其他数字人的工作有很多好处。
2025-03-01 11:46:49
528
原创 原理和代码解读:通义万相 WanX 2.1 视频生成模型
昨晚通义万相 WanX 2.1开源了,在多个指标上超越了sora、可灵、runway、hunyuan等模型。但是生成类的任务不能仅仅只看指标,实际的效果怎样?WanX 2.1 的技术架构是怎样的?有哪些技术改进?如何从T2V改造成I2V的模型的?这篇博客从原理和代码上详细解读这些问题。
2025-02-26 15:19:27
961
原创 手把手写深度学习(33):从视频中提取人脸的landmarks并可视化
训练数字人或人脸识别检测相关的模型经常要使用人脸的landmarks。这篇博客讲解如何从视频中提取人脸的landmarks并可视化。
2025-02-24 21:17:06
523
原创 论文和代码解读:Training Free的FLUX图像编辑方法Stable Flow
图像编辑一直是显卡资源不充足的研究组首选的 Diffusion 研究方向,当然不仅仅是这个方向对资源的要求比较低,更多是因为用于图像编辑的大规模配对数据集实在很难获取。其实图像编辑可以泛化到很多low-level方向,如去噪、去雾、去雨等,是一个广义上的image-to-image任务。
2025-02-22 11:31:54
299
原创 代码解读:如何将HunYuan T2V模型训练成I2V模型?
HunYuan T2V模型出来很久了,但是想要训练成I2V的模型还是有点难度。此外,还有很多预训练视频模型都是T2V的,可以借鉴本文的方法加入参考图作为条件,并严格保持视频的第一帧与Image一样。
2025-02-19 19:42:13
514
2
原创 畅游Diffusion数字人(16):由音乐驱动跳舞视频生成
从Pose到跳舞视频生成的工作非常多,但是还没有直接从音乐驱动生成的工作。最近字节跳动提出了MuseDance,无需复杂的动作引导输入(如姿势或深度序列),从而使不同专业水平的用户都能轻松进行灵活且富有创意的视频生成。
2025-02-10 10:48:17
565
原创 RF-Solver(Taming Rectified Flow for Inversion and Editing) 代码解读
之前在博客《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》中介绍了一种RF反演方法RF-Solver的原理,这篇博客从实战角度出发,详细解读其代码。
2025-02-06 09:00:00
489
原创 畅游Diffusion数字人(15):详细解读字节跳动最新论文——音频+姿态控制人类视频生成OmniHuman-1
昨晚字节跳动刚发布了一篇音频+姿态控制人类视频生成OmniHuman-1的论文,效果非常炸裂,并且是基于最新的MM-DiT架构,今天博主详细解读一下这一技术。
2025-02-05 11:54:31
878
原创 在Hunyuan Video上实现RF-Inversion
前面的博客《论文和代码解读:RF-Inversion 图像/视频编辑技术》,但是原始代码是基于FLUX和SD3实现的,这篇博客讲解一下如何在Hunyuan Video上实现RF-Inversion 。
2025-02-03 12:24:43
457
2
原创 论文和代码解读:RF-Inversion 图像/视频编辑技术
Rectified Flow的反演和DDIM这些不太一样,上一篇博客中介绍了腾讯提出的一种方法《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》,主要就是用泰勒展开和一阶导数近似来分解反演公式。这篇博客介绍谷歌提出的方法RF-Inversion,这篇工作更有名,贡献度更高。
2025-02-01 10:45:00
629
原创 基于Rectified Flow FLUX的图像编辑方法 RF-Solver
现在越来越多的开源模型是基于Rectified Flow,特别是FLUX和HunYuan Video,但是Rectified Flow inversion的性质和之前有所不同,这篇博客解读一下如何使用Rectified Flow对FLUX进行编辑。
2025-01-31 22:40:35
1087
原创 视频外绘技术总结:Be-Your-Outpainter、Follow-Your-Canvas、M3DDM
视频Inpaint的技术很火,但是OutPaint却热度不高,这篇博客总结比较经典的几篇视频Outpaint技术。其实Outpaint在runway等工具上很火,可是学术界对此关注比较少,博主从这三年的顶会中找到了最具代表性的三篇论文解读。
2025-01-27 23:17:55
1577
原创 论文解读:上海交大最新论文基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR
尽管扩散模型在图像生成和修复方面表现出色,但其在视频超分辨率中的应用面临时间闪烁问题,扩散模型的随机性会导致视频帧之间出现突然的过渡,产生时间上的闪烁伪影。这篇博客介绍一种基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR。
2025-01-21 10:50:48
559
原创 畅游Diffusion数字人(14):基于3D人体网格的语音驱动手势视频生成 ECCV 2024
根据语音输入生成与说话内容、情感和节奏相匹配的自然、流畅且逼真的手势视频。该技术在虚拟形象、虚拟现实、动画制作等领域具有重要应用价值。然而这方面的研究非常少,这篇博客解读一篇ECCV2024的最新论文。
2025-01-20 09:00:00
710
原创 畅游Diffusion数字人(13):首个基于DiT的高清肖像视频生成HALLO3
基于Unet的HALLO1和HALLO2非常成功,HALLO3是首个基于DiT的高清肖像视频生成的技术,也是完全开源的,在开源社区获得了非常多的好评。这篇博客就详细解读一下HALLO3。
2025-01-19 15:57:26
537
原创 详细解读多人脸ID视频生成技术 Ingredients: Blending Custom Photos with Video Diffusion Transformers
单个人脸ID控制视频生成的论文很多,效果也很不错。但是多个人脸ID控制视频生成的工作很少,基于DiT的工作更是凤毛麟角。这篇博客详细解读多人脸ID视频生成技术Ingredients:BlendingCustomPhotoswithVideoDiffusionTransformers
2025-01-19 15:42:01
252
原创 Low-Level 大一统:如何使用Diffusion Models完成视频超分、去雨、去雾、降噪等所有Low-Level 任务?
视频在传输过程中常常因为各种因素(如恶劣天气、噪声、压缩和传感器分辨率限制)而出现质量下降,这会严重影响计算机视觉任务(如目标检测和视频监控)的性能。现有的视频修复方法虽然取得了一些进展,但通常只能针对特定的退化类型,需要为每种任务训练单独的模型。这种方法在现实应用中成本高昂且不切实际,因为实际场景中往往存在多种退化因素。这篇博客介绍一种使用DiffusionModels完成视频超分、去雨、去雾、降噪等所有Low-Level任务的方法。
2025-01-17 19:00:00
700
原创 解读HunYuan Video代码(1):揭秘核心双流+单流的MM-DiT结构
FLUX和HunYuan-Video是目前开源效果最好的图像生成模型和视频生成模型,背后成功的关键之一就是双流+单流MM-DiT。很多社区的朋友讨论说DiT的效果很多方面表现不如UNet,诚然,改进版本双流+单流MM-DiT才是彻底击败UNet的关键。这篇博客是解读HunYuan Video代码的第一篇,首先解读最核心的网络结构。
2025-01-16 20:45:00
1488
原创 手把手写深度学习(32):给初学者看的微调HunYuan Video教程
之前的博客《代码实战:使用LoRA训练HunYuan Video生成定制肖像视频(附调参经验)》中介绍了如何用LoRA训练HunYuan Video,非常适合定制自己的ID特征。这篇论文将从更基础的方面讲解如何微调HunYuan Video,主要给第一次训练HunYuan Video的初学者。
2025-01-15 15:40:03
655
原创 基于CogVideoX的视频超分技术
上周博主解读了字节的SeedVR《详细解读AIGC视频超分/修复技术 SeedVR Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration》,这个工作并不开源。这篇博客解读一个开源的基于CogVideox视频超分工作,效果很赞。
2025-01-10 15:27:03
635
原创 【SIGGRAPH 2025】详细解读3D点云控制视频生成论文 Diffusion as Shader: 3D-aware Video Diffusion for Versatile
首先恭喜学术届的视频生成正式进入CogVideox5B时代!也许以后再也不用AnimateDiff/SVD/Open-Sora这些效果很差的“破玩具”了。这次博主给大家带来投稿至图形学顶会SIGGRAPH 2025的论文《Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control》,是一篇基于CogVideox5B的3D点云控制的工作,效果很赞,思路也有很多值得借鉴的地方。
2025-01-09 11:23:52
731
1
原创 代码实战:使用LoRA训练HunYuan Video生成定制肖像视频(附调参经验)
使用Diffusion Models定制肖像图片的教程很多,效果也很不错。之前也有基于AnimateDiff/CogVideox定制肖像视频工作,但是相比于HunYuan Video效果差距很大。毫不夸张的说,HunYuan Video生成定制肖像视频已经能达到以假乱真的程度!这篇博客主要讲述如何通过几张自己的肖像照片,使用LoRA训练HunYuan Video生成定制肖像视频。
2025-01-08 11:58:00
777
原创 每日AIGC最新进展(80): 重庆大学提出多角色视频生成方法、Adobe提出大视角变化下的人类视频生成、字节跳动提出快速虚拟头像生成方法
此外,进行了一系列一致性实验,以验证每个角色和背景的生成效果,确保生成视频的时间一致性。具体来说,在DyMVHumans数据集中,我们的模型在生成质量和表现一致性方面均表现优异,证明了多参考图像训练的有效性,并展示了在不同视角下的强大适应能力。我们的实验表明,FADA在多个数据集上生成的视频既生动又具有竞争力的质量,同时实现了4.17到12.5倍的推理速度提升。通过适应性调整教师模型和学生模型之间的学习权重,学生模型可以在保留教师模型高质量生成能力的同时,利用更多的中等质量数据来增强其泛化能力。
2025-01-07 00:15:49
1020
原创 详细解读AIGC视频超分/修复技术 SeedVR Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
2025年low-level领域继续被Diffusion Models“青春风暴”,这篇博客给大家带来字节跳动基于DiT的视频超分模型SeedVR,论文作者曾经出品过Upscale-A-Video、Codeformer等经典超分作品,这篇博客非常值得学习。
2025-01-05 23:57:26
1220
2
原创 代码实战:基于InvSR对视频进行超分辨率重建
上一篇博客《使用Diffusion Models进行图像超分辩重建》中讲解了InvSR的原理,博主实测的效果是非常不错的,和PASD基本持平。这篇博客就讲解如何利用InvSR对视频进行超分辨率重建。
2025-01-03 09:15:00
913
原创 使用Diffusion Models进行图像超分辩重建
图像超分辨率重建是一个经典CV任务,其实LR(低分辨率)和 HR(高分辨率)图像仅在高频细节上存在差异。通过添加适当的噪声,LR 图像将变得与其 HR 对应图像无法区分。这篇博客介绍一种方式巧妙利用这个规律使用Diffusion Models进行图像超分辩重建任务。
2025-01-02 21:00:00
2086
电子信息/通信/计算机专业 保研资料汇总
2021-05-28
中国大学生计算机设计大赛·国家级一等奖作品·资料汇总
2021-05-19
ShapeNet数据集
2021-02-05
2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总.zip
2020-01-08
2019年西安电子科技大学《自动控制原理》期末试卷
2020-01-08
Webvid-10M数据集 完整版-第一部分
2024-09-23
Webvid-1M原始数据集完整版-第二部分
2024-09-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人