
深度学习 · 科研实践
文章平均质量分 78
好记性不如烂笔头,本专栏将详细记录下本人学习深度学习工程实践(从零到跑通实验)的每一步,助人助己,方便日后查阅
陈苏同学
CV/具身AI/研究生、模型优化、世界模型、Agent记忆...学习笔记持续更新中~
个人网站: https://chensuzeyu.github.io
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[已解决] RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm( handle, opa,
复现3D目标检测Occ任务时遇到CUBLAS_STATUS_INVALID_VALUE错误,通过执行"unset LD_LIBRARY_PATH"成功解决原创 2025-06-12 16:31:58 · 43 阅读 · 0 评论 -
Linux 如何移动目录 (文件夹) (内含 Linux 重命名方法)
本文介绍了在linux中移动目录的工作流,包括单个目录的移动和批量移动;包括目标路径下有重名文件/目录是否覆盖的情况;已经重命名方法原创 2025-06-08 15:27:02 · 305 阅读 · 0 评论 -
在 Linux 服务器上无需 sudo 权限解压/打包 .7z 的方法(实用命令)
本文介绍了使用Python库py7zr进行7z文件压缩和解压的方法。解压步骤包括:1)在用户目录安装Python环境;2)安装py7zr库;3)编写解压脚本并执行。压缩步骤包括:1)安装py7zr库;2))执行压缩操作。两种方法均无需管理员权限原创 2025-06-02 18:10:05 · 393 阅读 · 0 评论 -
[已解决] Linux 安装 CUDA 成功实践(指定版本-添加环境变量-无管理员权限)-Command ‘nvcc‘ not found-CUDA_HOME environment variable
之前被AutoDL照顾的太好了,AutoDL都是预装CUDA,学校的服务器环境是没有CUDA的本帖可解决的问题1:安装mmdet3d需要显卡+CUDA,但是只有cudatoolkit没有CUDA,安装报错;原因分析:nvcc(CUDA 编译器)是 CUDA 工具包的核心组件,我们当前的环境中未安装完整的 CUDA 工具包。虽然通过 conda list 看到了 cudatoolkit=11.3.1,但 Conda 的 cudatoolkit 通常仅包含运行时库(如 libcudart.so),不包含编原创 2025-06-02 10:24:32 · 1167 阅读 · 0 评论 -
[科研实践] VS Code (Copilot) + Overleaf (使用 Overleaf Workshop 插件)
本讲解主要围绕使用VS Code连接Over Live进行本地与在线协同工作展开。详细介绍了使用Over LiveWorkshop插件的方法,包括如何在VS Code中登录Over Live网站、搜索项目、获取API代码等步骤。此外,另一种连接Over Live的方法——Cursor也有讲解:如何在VS Code中导入这个扩展原创 2025-05-28 13:27:56 · 690 阅读 · 0 评论 -
[已解决] LaTeX “Unicode character“ 报错 (中文字符处理)
在 LaTeX 文档中处理中文时,常遇到 "Unicode character" 报错,这是由于默认的 pdflatex 编译器不支持中文字符。解决方法包括:1) 改用 xelatex原创 2025-05-17 23:29:04 · 405 阅读 · 0 评论 -
[已解决] 第一次使用 VS Code / Cursor / Trae 的 PowerShell 终端 conda activate 进不去环境的常见问题
在PowerShell中使用Conda时,常见问题是无法正确激活指定环境。本文提供了解决该问题的步骤:首先,运行conda init powershell命令以初始化PowerShell,并重启终端或编辑器以确保配置文件加载。其次,检查并调整PowerShell的执行策略,建议设置为RemoteSigned以允许脚本运行。最后,通过观察PowerShell提示符的变化确认环境是否成功激活。按照这些步骤操作后,问题通常能够得到解决。原创 2025-05-14 17:54:09 · 682 阅读 · 0 评论 -
从 Git 到 GitHub - 使用 Git 进行版本控制 - Git 常用命令
本文旨在从零开始引导读者学习如何使用 Git 进行版本控制,并结合 GitHub 进行远程仓库管理。文章首先介绍了版本控制、Git 和 GitHub 的核心概念,强调了它们的重要性和优势。接着,详细说明了如何在 Windows、macOS 和 Linux 系统上安装 Git,并配置用户信息。随后,文章逐步讲解了本地仓库的基本操作,包括创建仓库、暂存、提交、查看历史、分支和合并等。最后,简要介绍了 GitHub 的远程仓库操作,如创建远程仓库、连接本地与远程、推送、克隆和拉取,以及基本的协作流程(如 Fork原创 2025-05-09 10:41:08 · 1023 阅读 · 0 评论 -
HPC (GPU)集群常用命令 - slurm作业调度方法 - ssh登录集群独占GPU(VS Code) - .sh/.py脚本的运行(持续更新)
【常用linux命令】HPC 集群常用命令 (封闭式管理的slurm调度系统) :最近因加入了导师团队,需要将在AutoDL上的小规模实验数据+代码迁移到学校的HPC集群中进行大规模实验;但现实很骨感,学校的集群是已封闭式管理的;而且slurm工作的运行调度逻辑和AutoDL这类服务器有很大差别;上传数据的单个文件大小卡在6GB以下,得分卷(避坑指南可参考博客);之后会持续更新一些个人经验原创 2025-05-07 16:37:17 · 962 阅读 · 0 评论 -
[已解决] 本地两台 win电脑 (以太网) 网线传输文件 - 局域网连接 (解决windows无法访问共享文件问题 - Windows 安全中心输入网络凭据 用户名/密码 不正确问题)
由于要本地传输的数据比较大,接近1T,正好有网线,试着本地网线高速传输(实测113MB/s)踩了很多坑,想把亲测成功的经验分享出来帮助更多同学原创 2025-05-06 21:47:51 · 2257 阅读 · 0 评论 -
Docker 从入门到进阶 (Win 环境) + Docker 常用命令
通过本文的详细指南,您应该能够在Windows环境下顺利安装和配置Docker,并掌握下载和管理镜像的基本操作Docker的强大功能将大大简化您的应用部署和管理流程,提升开发效率现在,你已经掌握了Windows下Docker的核心技能!原创 2025-04-06 23:52:46 · 4079 阅读 · 0 评论 -
[已解决] RuntimeError: Expected to have finished reduction in the prior iteration before starting
PyTorch的报错信息这个错误的核心意思是:在使用 DDP 进行分布式训练时,PyTorch 期望在每次迭代的反向传播过程中,模型的所有参数都应该收到梯度。然后 DDP 会在各个 GPU 之间同步(reduce)这些梯度。如果在某次迭代中,有些参数因为没有参与最终loss的计算,导致它们没有梯度,那么 DDP 在尝试同步这些参数的梯度时就会“卡住”,因为它在等待一个永远不会到来的梯度,从而在下一次迭代开始前抛出此错误。原创 2025-04-05 14:52:45 · 815 阅读 · 0 评论 -
[已解决] error: metadata-generation-failed + This package requires Rust and Cargo to compile extensions
这个错误是由于在安装依赖(例如 safetensors 包)时,需要用到 Rust 语言的编译工具链,而系统中没有安装 Rust 或者 Cargo 没有配置到 PATH 环境变量中所导致的。为了解决这个问题,你可以按照以下步骤操作:原创 2025-03-02 13:58:19 · 1582 阅读 · 0 评论 -
[已解决] ModuleNotFoundError: No module named ‘langgraph.checkpoint.sqlite‘
补安装 langgraph-checkpoint-sqlite,貌似这个包并不在langgraph里,需要额外下载原创 2025-02-27 16:16:01 · 889 阅读 · 0 评论 -
[实验日志] VS Code 连接服务器上的 Python 解释器进行远程调试
PyCharm的缺点是:不能实时同步、操作繁琐,需要维护两份代码。而VS Code是通过SSH(Secure Shell)的方式连接到远程服务器,换句话说,VS Code在远程开发过程中扮演的角色更像是一款终端模拟工具,它不需要繁琐的上传和下载步骤,实时性更好,只需要在Windows上保存一下,就会瞬间同步到远程服务器。原创 2025-02-06 15:38:15 · 3015 阅读 · 1 评论 -
[已解决] 报错:TypeError: FormatCode() got an unexpected keyword argument ‘verify‘,原因是yapf版本过高
原因 - yapf版本过高,得删除现有版本0.40.2,重新安装0.40.1版本即可:原创 2024-12-23 18:10:24 · 665 阅读 · 0 评论 -
[已解决] error: command ‘/usr/bin/gcc‘ failed with exit code 1”问题
出现这个错误,是GCC编译器出问题了,有三个可能得原因需要排查:如GCC未正确安装、环境变量配置不正确、代码中存在语法错误等原创 2024-12-20 15:39:38 · 6470 阅读 · 0 评论 -
[科研实践·已解决] 写论文时 Latex 本地 (TeX Live) 引用文献出错不显示,但在线 (Overleaf) 却可以,原因是缺少 BibTeX 编译步骤,pdfLaTeX 执行顺序不对
在 Overleaf 中,编译流程是自动完成的,而本地环境可能需要手动执行。如果没有正确运行 BibTeX,引用将显示为 [?],并且参考文献列表不会生成。原创 2024-12-12 19:36:52 · 1494 阅读 · 2 评论 -
[实验日志·已解决] 如何下载 + 加载本地的BERT预训练模型 (OSError: Can‘t load tokenizer for ‘bert-base-uncased‘.)
的bert预训练模型报错长这样,说明访问不了外网,服务器也不太方启用代理VPN,咱可以使用下载到本地的bert模型。不管你是从hugging-face还是哪里下载来的模型(pytorch版)文件夹,应该包含以下三个文件,over,网上很多教程对小白很不友好,转载记录一下本人按照网上帖子的成功实践的经验,希望能帮到你。很多下载的模型文件夹里面上述三个文件名字可能会有不同,一定要注意!至此,你就能够使用你的本地bert了!原创 2024-11-14 09:54:35 · 5204 阅读 · 4 评论 -
[实验日志] 将pycharm(本地项目)连接到远程服务器(Linux)上跑起来 —— 使用远程环境 + pycharm运行run.sh + 配置分布式训练的环境变量
以上的每一步,都是建立在运行后报错,找原因,改进后的实践经验总结。运行剩下的不同的训练脚本,修改的方法都大同小异。目录:0. 前序工作1. 连接远程虚拟环境 (配置解释器)2. 理解.sh (shell脚本 - 以Occ为例)补充shell脚本讲解3. 配置运行参数 (PyCharm)值得注意的路径问题:小结原创 2024-11-06 14:20:01 · 2430 阅读 · 0 评论 -
[已解决·实验日志] AutoDL系统盘异常爆满,原因是PyCharm 在连接到远程服务器调试时,自动执行后台任务(正在更新 python解释器), 将某些包&依赖项下载到了服务器上
今天照常debug中途退出,准备服务器GPU关机,突然看到系统盘爆满,顿时血压升高,咱来一探究竟。直接上结论:AutoDL系统盘异常爆满,原因是PyCharm 在连接到远程服务器时,会自动执行后台任务更新 python解释器,自动将某些包&依赖项下载到了服务器上,很占空间,只能手动清除,但无法根除原创 2024-10-27 12:32:20 · 5647 阅读 · 7 评论 -
[已解决] pycharm添加本地conda虚拟环境 + 配置解释器 - pycharm找不到conda可执行文件
使用pycharm而非jupyter notebook, 是为了debug调试,方便看源码,深入理解代码1.显示:未为项目配置 Python 解释器2.想在pycharm中使用本地创建的虚拟环境方法:进入解释器配置界面,有三种方法,这里我们详细演示法3(最通用)通过法3进入设置,找到project(项目),添加本地解释器添加本地解释器→Conda 环境→找到conda文件夹(安装目录)→condabin→conda.bat点击确定后,还得再点击“加载环境”原创 2024-10-18 10:57:00 · 6350 阅读 · 7 评论 -
[已解决·实验日志] bash: /root/.bashrc: syntax error near unexpected token `else‘ —— Linux服务器报错
配好环境后、搭好炼丹炉子的data后,闲置了10天。今天准备开始炼丹,GPU开机,conda activate准备进入环境,又重现了之前的错误。小问题[自信]~按照之前的帖子,从容地输入“conda init bash”执行初始化,退出shell后,再重进终端,发现还是会有同样的报错,仔细看,和第一次有所不同,在打开终端后的第一行多了个(自动弹出)报错:原创 2024-10-14 13:34:07 · 939 阅读 · 0 评论 -
6. 一些关于上传数据-p7zip-full-压缩包的经验——深度学习·科研实践·从0到1
目录前言7z 简介Windows如何压缩tar.gz格式一、下载7-ZIP二、tar文件进一步压缩说明:以后得注意,在初始化环境的最开始把p7zip-full装好,本次只能在win上下载7-zip(因为360压缩只支持.zip和.7z),文件夹压缩(.tar→.bz2)后慢慢压缩后传到linux服务器,用OpenDL自带的tar工具来解压了原创 2024-10-05 12:39:39 · 388 阅读 · 0 评论 -
[已解决] fatal error: cuda_runtime.h: No such file or directory ——Linux添加环境变量-解决常见cuda报错
在Linux服务器虚拟环境里添加环境变量,以解决cuda报错:/usr/local/cuda/找不到cuda_runtime.h,因为cuda_runtime.h在/usr/local/cuda-11.3/里!原创 2024-10-04 11:58:09 · 2499 阅读 · 0 评论 -
[已解决] 使用清华源临时安装pytorch==1.10.1,torchvision ,Cuda等,配置虚拟环境
使用临时conda+清华源:conda install pytorch==1.10.1 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/;使用pip+清华源:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torchvision==0.11.2原创 2024-10-02 22:45:16 · 1301 阅读 · 0 评论 -
[已解决] CommandNotFoundError: Your shell has not been properly configured to use ‘conda activate‘
Shell 是一种命令行解释器,它为用户提供了与操作系统内核进行交互的界面终端通常会调用一个默认的 Shell 来解释和执行这些命令Bash 是 Linux 和 Mac OS 中常见的默认 shell。报错解析:这个情况是因为shell没有正确配置使用conda activate命令;需要运行conda init 来初始化shell,其中是当前使用的shell类型,比如bash、fish、tcsh、xonsh、zsh或者powershell;初始化后,关闭并重新启动shell才能生效原创 2024-10-02 10:37:22 · 1973 阅读 · 0 评论 -
5. 常用开源数据集快速导入(解压到)Linux服务器(AutoDL) - linux解压命令 + 7zip分卷上传到slurm集群
目录1. 查找公开数据2.解压到自己的数据盘中3. 解压常用指令1. 查找公开数据参考文档:AutoDL帮助文档-公开数据查找和导入AutoDL提供了部分常用开源数据,供咱在实例中进行使用,免去下载上传的烦恼(直接解压到咱的服务器文件夹很方便)在控制台中找到公开数据菜单:原创 2024-09-30 08:38:29 · 823 阅读 · 2 评论 -
4. 将pycharm本地项目同步到(Linux)服务器上——深度学习·科研实践·从0到1
目录前序工作1. 服务器项目名和本地一致2. pycharm连接服务器3. 本地项目对应到服务器项目4. 简单测试一下同步效果同步成功。当然pycharm里的终端显示的是二手信息,如果咱做实验的话,还是推荐在jupyter lab进入终端,直接在那里输入Linux命令,管理实例,那里是一手信息,能更少出错!原创 2024-09-29 20:43:01 · 2427 阅读 · 1 评论 -
3. 将GitHub上的开源项目导入(clone)到本地pycharm上——深度学习·科研实践·从0到1
目录1. 在github上搜项目 (以OpenOcc为例)2. 转移到码云Gitee上3. 下载整个项目到本地4. 在pycharm中打开项目原创 2024-09-29 19:53:53 · 1194 阅读 · 0 评论 -
2. 将GitHub上的开源项目导入(clone)到(Linux)服务器上——深度学习·科研实践·从0到1
目录1. 在github上搜项目 (以OpenOcc为例)2. 转移到码云Gitee上3. 进入Linux服务器终端 (jupyter lab)4. 常用Linux命令5. 进入对应文件夹中导入项目(代码)原创 2024-09-29 15:31:30 · 2266 阅读 · 0 评论 -
1. 如何在服务器上租GPU跑实验 (以AutoDL为例) - 深度学习·科研实践·从0到1
后期很多操作可以看帮助文档,比如将咱刚刚创建的实例连接pycharm (专业版),同步代码,将数据传入,使用常用的jupyter lab终端可视化控制咱的Linux服务器,等等,都有详细教学文档原创 2024-09-29 14:04:51 · 2277 阅读 · 0 评论 -
优雅地安装 miniconda 和 Jupyter(从零开始~保姆式)
本人亲自上手实操,堪称miniconda+jupyter的最佳实践,亲测特别优雅,elegant!!!原创 2024-09-10 22:30:25 · 10396 阅读 · 6 评论