- 博客(16)
- 资源 (7)
- 收藏
- 关注
原创 DiT:从理论到实践,一文深入浅出带你学习Diffusion Transformer
DiT模型使用Transformer作为其主干网络,替代了传统的U-Net架构。这些模型在Latent Space中训练,通过变换器处理潜在的图像块(patches)。其中,每个tokens在序列中都有一个隐藏维度d,即向量大小。
2025-01-16 15:48:45
1103
原创 Meta人体AI模型 Sapiens:High-resolution models for human tasks
Meta公司一直是图像和视频模型开发的先锋,最近他们推出了一项名为Meta Sapiens的新模型,专注于与人类相关的任务。与Homo sapiens(智人)相似,Meta Sapiens模型旨在理解和模拟人类行为,包括理解身体姿势、识别身体部位、预测深度,甚至确定皮肤纹理等表面细节。本文将详细解析Meta Sapiens模型的三大支柱、技术实现以及代码实践。
2024-12-18 11:27:16
1039
1
原创 FLOPs、FLOPS和Params的含义、计算及其在PyTorch中的使用
在深度学习领域,模型的效率和复杂度是衡量算法性能的重要指标。FLOPs、FLOPS和Params是三个关键概念,它们分别代表了模型的计算量、计算速度和参数量。本文将详细解释这些概念,并展示如何在PyTorch中计算它们,以便更好地理解和优化我们的模型。
2024-11-08 11:14:31
1259
原创 【代码解析】用PyTorch实现混合专家(MoE)语言模型
DeepSeek-V2是一个具有2360亿参数的开源混合专家(MoE)语言模型,每个令牌激活21亿参数,支持最大128K令牌的上下文长度。在开源模型中,DeepSeek-V2实现了顶级性能,成为最强大的开源MoE语言模型之一。在MMLU(多模态机器学习)基准测试中,DeepSeek-V2以较少的激活参数实现了顶尖的性能。与前代模型DeepSeek 67B相比,DeepSeek-V2显著提升了性能,降低了42.5%的训练成本,减少了93.3%的KV缓存,并将最大生成吞吐量提高了5.76倍。
2024-10-26 23:56:15
1252
原创 【Linux运维】根据指令名称杀死进程
进程是计算机中正在执行的程序实例,是系统中最基本的执行单位之一。每个进程都有自己的进程标识符(PID),用于唯一标识和识别该进程。pkill是一个强大的工具,可以帮助你管理和控制系统中的进程。通过掌握其用法和技巧,以及相关的进程管理工具,你可以更有效地解决系统故障、优化资源利用,并实现自动化任务。希望本文能帮助你更好地理解和使用pkill命令。
2024-10-19 21:07:21
926
原创 【算法解析】扩散模型中的Noise Scheduler技术解析
通过上述分析,我们可以看到Noise Scheduler在扩散模型中扮演着至关重要的角色。它不仅负责将噪声图像逐步还原为原始图像,还通过引入随机性来增加生成图像的多样性。DDPM作为扩散模型的一个经典实现,其模型和调度器的设计为我们提供了深入理解扩散模型的窗口。
2024-10-06 17:03:10
2291
原创 【论文阅读】MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance
置信度感知:通过分析姿态估计的置信度,我们能够识别并减少不准确的预测对最终结果的影响。手部区域增强:我们特别关注手部区域的姿态估计,通过增加该区域的损失权重来改善手部变形问题。位置感知的Latent融合:我们提出了一种逐步融合latent vector的方法,以增强视频帧之间的时序平滑性。
2024-10-06 16:31:32
675
1
原创 【算法综述】ReferenceNet: 探索条件控制的深度学习算法
ReferenceNet的算法已经被广泛应用于多个领域,包括视频生成、换装、换脸等。
2024-10-06 16:26:15
1769
原创 【算法解析】为什么在训练时使用DDPM,而在采样时使用DDIM
本文讨论Stable Diffusion背后的两种关键技术:DDPM(Denoising Diffusion Probabilistic Models)和DDIM(Denoising Diffusion Implicit Models),并解释为什么在训练时使用DDPM,而在采样时使用DDIM。
2024-09-24 19:43:11
2011
原创 LoRA微调及其在多任务学习中的应用
LoRA微调技术不仅提升了参数和计算效率,而且通过合理的模型合并策略,使得大型语言模型能够在有限的资源条件下支持多任务处理。随着研究的不断深入,我们期待LoRA及其他高效微调方法在未来能够在更多的应用场景中发挥更大的作用,推动人工智能技术的发展和创新。
2024-09-21 18:50:03
582
原创 大模型加载多个LoRA并灵活切换
LoRA是一种有效的模型适配技术,它通过在模型的权重矩阵中引入低秩结构来实现参数的高效更新。这种方法不仅减少了模型的存储需求,还加快了训练速度,使得在资源有限的情况下微调大型模型成为可能。
2024-09-21 16:22:07
2715
原创 处理 pip 安装时的哈希值不匹配问题
在 Python 开发的广阔天地中,使用 pip 来安装第三方库是家常便饭。但有时候,我们可能会遇到一个令人头疼的问题:“这些包与需求文件中的哈希值不匹配”。这个错误提示我们,下载的包的哈希值与 requirements 文件中指定的哈希值不一致。这究竟是怎么一回事?我们又该如何解决呢?
2024-09-19 11:43:40
1672
原创 Linux Shell中的输入输出重定向技巧
在Linux系统中,掌握输入输出重定向是一项基本而强大的技能。通过使用特定的符号,我们可以灵活地控制数据的流向。标准输入(文件描述符0)、标准输出(文件描述符1)和标准错误输出(文件描述符2)是Linux Shell环境中的三个基本通道。
2024-09-07 16:19:18
393
1
原创 yolov3在windows及linux上的编译
yolov3在windows及linux上的编译文章目录yolov3在windows及linux上的编译windows配置linux配置windows配置从github或gitee上下载darknet安装包 ,注意windows一定要下载压缩包,通过git clone会出错。下载链接:https://gitee.com/ml_x/darknet下载后进行解压,根据需要对压缩包中的Makefile进行编写。只需设置如下代码段:GPU=0 # 如果有GPU就设置为1CUDNN=0 # 同上O
2021-02-14 17:21:19
413
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人