- 博客(20)
- 收藏
- 关注
原创 DiffSynth-Studio训练踩坑记录
DiffSynth-Studio训练问题记录 本文记录了在DiffSynth-Studio训练过程中遇到的模型加载问题及解决方案。主要问题涉及: PyTorch 2.5.1的meta tensor机制 使用strict=True导致的结构不匹配 新增模块后的权重加载 解决方案要点: 对meta模型使用to_empty()而非to() 采用strict=False加载权重 正确处理新增模块的初始化 打印missing/unexpected keys以检查加载情况 核心代码逻辑: 检查是否有meta参数 met
2025-12-15 11:52:10
934
原创 [深度思考] 当80%的训练数据都是错的,模型还能学会分类吗?——基于MNIST的噪声标签实验
深度学习模型对标签噪声的惊人鲁棒性 本文通过MNIST数据集实验探索了深度学习模型对错误标签的容忍度。研究发现: 模型表现出极强的抗干扰能力,即使60%训练标签错误,测试准确率仍高达95%以上 临界点在80%-90%错误率之间,性能会断崖式下跌至随机猜测水平 这种现象可用统计规律解释:当正确信号强于噪声信号时,模型仍能学习有效特征 实验表明,深度学习模型并非简单记忆标签,而是通过竞争机制从噪声中提取有效模式。这一发现对实际应用中处理噪声数据具有重要启示。
2025-12-08 16:22:31
884
原创 用 NotebookLM 一键生成 AI 科普动漫 / 演示稿(以 Wav2Lip 为例)
最近用 AI 生成科普类动漫/演示视频非常火,比如下面这种风格:那么,这样的效果到底是怎么做出来的呢?。下面以 Wav2Lip 这篇文章为例,带你走一遍完整流程。
2025-12-07 16:01:57
483
原创 在 CUDA 12.5 服务器上复现自动驾驶项目:PyTorch 1.13+cu116、mmcv 1.7.1 环境踩坑记录(含 cusolverDn.h 报错解决)
最近在服务器上复现一个自动驾驶 3D 检测项目(基于 mmdet3d + 自定义 CUDA ops),结果在环境搭建阶段就被 CUDA 和 mmcv 教育了一番。核心场景是:服务器系统 CUDA 是(很新);项目要求;mmcv 版本是;安装 mmcv 用的是 OpenMMLab 官方 wheel;真正致命的错误是:在编译 mmdet/mmdet3d 插件时遇到下面是完整的踩坑和解决过程。
2025-11-24 13:48:10
662
原创 一次 std::bad_alloc 排查:multiprocessing.Pool + maxtasksperchild 拯救内存暴涨
关键词:Python、multiprocessing、decord、FFmpeg、std::bad_alloc、内存泄漏、maxtasksperchild最近在做视频数据集的清洗,需要把损坏/不能正常解码的视频先删掉。,再配合才成功缓解问题。这里简单记录一下定位和解决的过程。
2025-11-21 11:45:41
993
原创 记录一次安装 PyTorch3D 遇到的坑:ModuleNotFoundError: No module named ‘torch‘
最近在折腾,需要用到 Facebook Research 开源的。结果在安装过程中踩了个小坑,简单记录一下,方便以后自己查,也希望能帮到遇到同样问题的人。
2025-11-19 19:32:45
444
原创 GPU 显存被“僵尸进程”占着却没任务?——从定位到清理的完整实战(含脚本)
深度学习训练中时常会遇到显存被占用但nvidia-smi显示无进程的异常情况。本文提供了一套排查方案:通过fuser/lsof命令检查GPU设备文件,找出隐藏的占用进程PID(通常为异常退出的Python进程),确认后使用kill -9清理。最佳实践建议在代码中加入异常处理机制,并使用tmux/screen管理会话。文章还提醒单卡reset和重载驱动可作为备选方案,帮助开发者高效解决显存占用问题。
2025-10-04 21:27:14
506
原创 GitHub 教育认证通过后如何领取 Copilot Pro
如果等了超过两周还是没有,可以到 GitHub Support 提交工单:选择,并附上截图说明。先等几天到两周,看 Student Pack 页面状态。去free_signup 页面领取福利。检查账号、插件、缓存。实在不行就联系官方支持。这样基本上就能解决 “教育认证通过但没有 Copilot Pro” 的问题了 ✅。
2025-09-06 10:31:16
2075
1
原创 MMCV 安装遇到证书过期问题的解决记录
摘要:安装MMCV时,pip因OpenMMLab下载站点的HTTPS证书过期而回退到源码编译模式。解决方法包括:1)使用--trusted-host参数临时绕过证书验证;2)手动下载.whl文件安装;3)等待官方更新证书。问题根源在于文件服务器的TLS证书过期,导致pip无法正常下载预编译包。该案例揭示了pip的证书验证机制及应对策略。(150字)
2025-08-19 14:49:54
430
原创 火车票电子发票查验详细流程指南
解决报错:`libsox.so: cannot open shared object file: No such file or directory`
2025-07-23 10:45:43
3491
原创 解决报错:libsox.so: cannot open shared object file: No such file or directory
解决报错:`libsox.so: cannot open shared object file: No such file or directory`
2025-07-21 13:30:17
802
原创 【解决方案】pip安装旧版本PyTorch(如1.9.0)时找不到版本的原因与解决办法
摘要:安装旧版PyTorch(如1.9.0)时出现找不到版本的问题,原因是PyTorch老版本未上传到PyPI官方源,而是托管在PyTorch官方的whl镜像源。解决方法是通过-f参数指定官方whl源地址:pip install torch==1.9.0 -f https://download.pytorch.org/whl/torch_stable.html。该方法适用于还原老项目环境时的版本兼容问题。
2025-07-17 11:12:21
896
原创 深度学习环境报错:GLIBCXX_3.4.32 not found 问题解决记录
摘要:本文记录了深度学习环境中"GLIBCXX_3.4.32 not found"报错的解决方法。该问题出现在加载flash_attn_2依赖时,因conda自带的libstdc++.so版本过低导致。解决方案是通过conda-forge安装更新的libstdcxx-ng包。建议深度学习环境优先使用conda管理依赖,遇到类似.so库问题时可检查库位置和环境变量,flash-attn等高性能CUDA包对底层依赖版本要求较高,应保持环境较新状态。
2025-07-11 12:45:53
945
原创 无sudo权限服务器环境下深度学习C++/CUDA扩展编译报错解决实录【conda多版本gcc隔离最佳实践】
摘要 在无sudo权限的服务器环境下搭建SimFeatUp深度学习项目时,遇到C++/CUDA扩展编译错误。主要问题为系统gcc版本与PyTorch/CUDA不兼容。通过conda创建隔离环境,安装指定版本gcc工具链,设置环境变量解决编译问题。关键步骤包括:1) 使用conda安装gxx_linux-64=11.2.0;2) 配置LD_LIBRARY_PATH和PATH指向conda环境;3) 确保CUDA路径正确。该方法有效解决了无root权限下的深度学习C++扩展编译问题。
2025-07-07 17:57:02
1679
原创 PyTorch 模型 bfloat16 训练深度排查:Conv3d 的 NotImplementedError 分析与解决
本文详细记录了PyTorch模型在bfloat16精度训练时遇到的Conv3d算子NotImplementedError排查全过程。通过对比分析发现,问题根源在于模型被错误放置在CPU上而尝试以bfloat16精度执行,而PyTorch的Conv3d不支持CPU+bfloat16组合。解决方案是将模型和数据统一迁移到CUDA设备。文章总结了混合精度训练的设备限制问题,并提出了防御性编程、调试输出、构建最小可复现案例等实用建议,为开发者提供了系统性的问题定位思路和最佳实践。核心结论是确保模型和输入数据的设备(
2025-07-04 15:14:56
983
原创 PyTorch DDP分布式+3090显卡 NCCL 报错 Linux服务器环境踩坑全记录【含升级实战】
本文记录了在Linux服务器环境下使用PyTorch DDP分布式训练时遇到的NCCL报错问题排查全过程。作者通过最小复现Demo和单卡测试锁定问题根源为环境兼容性问题,而非代码错误。文章详细展示了排查思路:从初始的NCCL报错到剥离分布式变量进行单卡测试,发现PyTorch版本与RTX 3090显卡不兼容的根本原因。最终通过升级PyTorch版本解决问题,分享了一套完整的分布式训练环境调试方法论,包含实用技巧和避坑指南,对开发者具有直接参考价值。
2025-07-04 14:12:03
2138
原创 【超详细教程】在 Windows 上配置 VSCode 的 C++ 开发环境(含中文文件名处理技巧)
本文是一篇面向初学者的完整教程,详细讲解了如何在 Windows 平台下配置 VSCode 的 C++ 开发环境。内容涵盖 VSCode 和 MinGW-w64 的安装、环境变量配置、C++ 插件使用、编译/调试文件自动生成方法,以及如何规避中文文件名带来的兼容性问题。通过六个步骤,帮助你快速搭建稳定、实用的 C++ 编程环境,轻松开启你的 C++ 学习之路。
2025-06-15 17:20:19
1029
原创 VS Code 无法连接旧服务器?2025 年新政策背后的原因与解决方案
2025年1月起,VS Code 1.97+版本对远程服务器要求glibc≥2.28,导致无法连接CentOS 7等老旧系统(仅支持glibc 2.17)。可通过ldd --version检查服务器版本。解决方案是下载兼容的便携版VS Code 1.96.4(或特定版本),解压后即可连接旧服务器,同时保留新版VS Code用于其他开发。便携版会共享原版设置和插件,实现双版本并行使用。
2025-06-05 11:39:58
1267
2
原创 CACC 总决赛第二天实战:ResNet-18 微调与细粒度场景分类优化全记录
本文记录CACC总决赛第二天参赛经历,赛题为ResNet - 18微调与细粒度场景分类优化,需在不修改模型结构下,让模型识别同一对象不同环境变化,面临细粒度识别、少样本训练等挑战。作者分享初始尝试、两轮策略优化过程,包括优化器、学习率、数据增强等调整,公榜获满分500分,私榜457分,最后总结反思经验,为深度学习实践提供参考。
2025-04-22 10:20:13
759
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅