自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 re库匹配<think>出错

因为一开始没有加DOTALL,结果白跑实验两天,破防了。

2025-03-31 22:26:01 87

原创 UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel anaconda

感觉像是平时在复制指令的时候不小心设置了这个,被别人坑了。使用vim打开文件,在vim命令行中输入。

2025-03-30 01:41:44 127

原创 进程Kill杀死后GPU显存没有释放仍然被占用,怎么杀死僵尸进程

一般来说他会杀掉整个用户的所有进程。

2025-03-29 23:21:36 199

原创 conda 的 envs_dirs 配置出错

奇怪,为什么conda的env_dir会导到miniconda3的根目录呢?

2025-03-15 00:57:44 376

原创 [小样本学习] 关于特征选择+小样本学习的方法论

今天阅读了一篇论文以及知乎的一些分享文章。

2025-03-09 00:16:00 137

原创 [医学图像数据的预处理工作] 关于dicom格式怎么处理成为nii.gz为后续使用

当然我觉得如果能一步提取到目标数据,那肯定是最好的,如果不行,那就多步去做。

2025-03-08 17:07:55 254

原创 关于 c10::Half 类型和float不匹配

我在跑大模型推理的时候,遇到了上面的错误。首先有一个问题需要考虑:我希望模型可以在gpu上面推理,但是我默认了模型会自动加载到gpu上面。。。解决方法检查llama模型是不是正确加载到gpu,一半出现 c10:Half 这个类型,模型很大概率是加载到CPU上面去推理的,所以只要修改到gpu上就不会报错了模型推理的时候,记得加上autocase最后代码因为是修改R2genGPT的,所以代码如下:

2025-03-02 16:58:13 386

原创 Ubuntu系统中测试硬盘速度

hdparm 测试中,7112 MB/s 的缓存读取速度表示从内存(RAM)直接读取数据的理论极限速度(依赖内存性能),而236 MB/s 的缓冲磁盘读取速度反映物理磁盘(如硬盘或SSD)的实际连续读取性能,两者差异源于内存(电子传输)和磁盘(物理/接口限制)的本质区别。一般来说大模型都是10GB以上的,但是我发现服务器上面的机械硬盘只有 700KB/s的加载速度,这十分慢。在运行程序的时候,我发现程序一直处在S的(sleep)状态下面,一直卡在硬盘读写,导致模型加载不成功。

2025-03-02 13:47:32 258

原创 【conda环境泄露】所有环境共享了一个包?

他这个location可以看出transformers这个包安装在公共的lib路径上面,非常不合理。主要是conda install要检查一堆信息,太慢了,不如pip一下子安好,当然快也有坏处的。打开 .bashrc 文件,添加下面的内容!配置好路径,记得更改你的路径。所以,在安装环境的时候,一定要使用which pip查看一下安装路径是否正确。,之后conda就会重新进入环境,这个时候会自动退出到base环境。但是对我来说不起作用,我还是配置好路径就行了吧。这个公共的路径就是base环境的路径。

2025-02-25 23:06:47 367

原创 llava推理时环境报错

【代码】llava推理时环境报错。

2025-02-16 00:36:40 322 1

原创 [安装FlashAttention] CUDA版本 和 Nvidia驱动版本

一开始我以为是我 torch 安装的 CUDA toolkit11.8,nvcc -V是12.1会冲突,然后我把torch也换成了CUDA12.1的,但是还是报了神奇的错误。看来flash attention用的是系统的那个CUDA runtime api,而不是conda环境的,所以他说我的CUDA版本太低了。我是使用这个命令安装的,也就是CUDA版本是11.8,在conda环境安装的runtime api是CUDA11.8版本的。嘶,很神奇,不要用官网的那个安装命令。那这样看来我最高能装到12.4。

2025-02-10 21:50:45 1584 1

原创 [vncserver配置过程]

服了,umls的安装需要 X11 ,也就是图形化界面。我使用都没有办法,本来想试试vncserver,结果也是一坨。

2025-01-16 00:21:10 244

原创 [关于dpkg依赖错误的坑] 依赖出错会导致很多问题

当你运行 install / remove 都会被打断,报上面错误,就是遇到了依赖出错问题。运气好的话,你能够输入fix-broken自动解决,但是运气不好就修不好。

2025-01-15 19:17:09 1199

原创 [ubuntu安装报错] apt-get报了404 Not Found 的错误

结果发现不存在这个库。然后再次安装就成功了。

2025-01-15 11:51:39 177

原创 [Linux] 服务器CPU信息

例如,节点0包含 0-31 和 64-95 的 CPU 核心,而节点1包含 32-63 和 96-127 的 CPU 核心。因此,2 个物理 CPU 插槽(Socket(s): 2)和每个插槽 32 个核心就提供了 32 * 2 = 64 个线程(每个物理核心有 2 个线程)。输出中,显示了 CPU(s): 128,这意味着系统实际上识别到128个虚拟CPU或线程数,而不是物理CPU核心数量。因此,在两个 CPU 插槽上,系统总共有 64 * 2 = 128 个虚拟核心(线程)。

2024-12-31 15:06:11 955

原创 [Bert] 提取特征之后训练模型报梯度图错误

训练模型的时候,输入数据x,y不应该requires_grad,而bert模型输出的embeddings默认是requires_grad的,所以会报错。提取完embeddings之后,使用。

2024-12-30 12:43:29 369

原创 [modelscope and huggingface] 模型下载经验贴

这个脚本会把模型下载在默认路径,要修改的话需要传参。

2024-12-14 01:45:26 588

原创 [huggingface报错]关于hf的版本问题

想要用pokemon的diffusion模型练一下手,但是环境弄好了之后,报错了x。查到了是 huggingface 的版本太新了,这个函数被删掉了。换完版本之后报了下面的错误。好像只能够手动下载权重了。

2024-11-29 00:48:01 437

原创 [jupyter运行报错] AssertionError: Torch not compiled with CUDA enabled

不知道为什么同一个环境,.py代码能跑,但是jupyter的环境报了这个错误。然后命令行输出的python版本和安装环境时制定的python版本不一致。首先,在命令行能够转成cuda tensor。感觉这个环境也挺奇怪的。

2024-11-23 10:54:15 310

原创 【jupyter】linux服务器怎么使用jupyter

最后conda环境还是没办法安装ipykernel,最后换了一个新的python环境。所以服务器跑jupyter,只需要conda环境装ipykernel。下载完kernel还是报错(那就继续下载)下载完了等待环境处理问题等了好久。

2024-11-22 23:59:54 313

原创 [linux服务器] Exception in thread “main“ java.awt.HeadlessException: No X11 DISPLAY variable was set,

首先我是想用nbia-data-retriever 下载数据的,结果ubuntu服务器没办法使用它下载。使用命令行命令下载时会报上面这个错误。缺失的包需要自己手动安装。

2024-11-05 17:19:13 482

原创 [Bert模型微调]

但是即使反过来,让有效的变成0,他也是能拟合的!所以debug的时候就很烦xxx。很神奇的一个问题,我也不知道后续能不能复现。有效的值为1,无效的为0。

2024-10-20 23:57:51 222

原创 [git] github管理项目之环境依赖管理

但是直接使用pip安装不了torch,需要添加源!!

2024-10-06 21:09:21 852

原创 [pytorch] 训练节省显存的技巧

因为偷懒,使用的是 pytorch 自带的 scaler,发现其实没什么用。是更新梯度,但是计算图没有释放,可以使用zero_grad释放计算图。这个我也没有试验过。

2024-09-14 21:36:12 572

原创 [git操作] git创建仓库上传github报错

操作流程如下git init报错如下输入git status按照它的提示,把 .git/index.lock 文件手动删掉,然后重新git add .就可以了。

2024-09-09 21:54:59 530

原创 [Transformer] Attention注意力中的位置编码

vit使用的就是固定的位置编码,是一个形状为的可学习的 tensor。如果预训练的时候,下游任务需要,那么可以采用二维插值。

2024-09-05 12:49:39 448

原创 [center loss] demo

看到 center loss 可以像聚类一样,使用不同的核函数(可以看成是计算距离的函数)计算loss,记录一下这个demo。

2024-09-02 23:14:21 363 1

原创 [torch] loss函数的注意事项

默认是 type.Long, 在计算loss时,不能转换成为float。这也就是说,只有浮点数和复数支持梯度计算。

2024-08-25 21:21:19 221

原创 [stain norm] 病理图片染色处理笔记

在这里插入图片描述](https://i-blog.csdnimg.cn/direct/b8170b71aa3842de82b95c72993bbce4.png。因为要涉及多张病理图片的stain norm,所以需要一对一地进行transforms,但是即使这么做了,使用。reference_image的大小是(2000, 2500)但是sources_image的大小为(512,512)可能最主要的原因还是染色的色域差得有点大吧。还是出现了奇怪的染色情况。颜色确实变深了一点。

2024-08-23 00:41:53 364

原创 [conda]环境更新python

目前装环境、迁移环境还是没有找到一套方便的模板,所以只能很笨地一步一步安装。所以考虑新建一个conda环境,然后把旧环境的库在新环境中重新安装一遍。除此之外,就删掉一些在本地安装地库,然后保留能用pip安装的库,使用。都没有办法完成升级,我猜测可能是有库依赖于python3.7的版本。torch是没办法直接下载的好像,要去torch官网找命令下载。如果有一些库出错,可能需要手动下载。库好像只会记录项目依赖的库。

2024-08-21 16:22:49 242

原创 [服务器运维] gpu幽灵进程处理

这种情况通常是由于所谓的"僵尸进程"引起的。僵尸进程是指那些已经完成任务但没有正确关闭的进程,它们可能因为各种原因未能释放占用的GPU资源。这会导致资源浪费,并且阻碍其他任务的执行。但是有时候这些PID是主进程,已经kill不了了。然后就把这个nvidia下面的进程kill掉就行。有些服务器可能需要sudo权限才能使用。查看当前占用GPU资源的进程。

2024-08-18 15:55:59 301

原创 [R语言] 下载R语言工具并且使用python调用

只需要安装里面的base包就可以了,因为只1用到了SPlit库。工具目前只支持python=3.7及以下的版本。windows 上安装。linux 上私人安装。,直接在shell输入。

2024-08-18 15:33:14 147

原创 [sklearn] 分类指标解惑

weighted 这个参数在函数中,其实就是考虑了的情况(也就是需要传一个sample_weights的参数?官方文档的原文:when average=weighted, calculate metrics for each label, and find their average, weighted by support (the number of true instances for each label).

2024-08-14 21:13:09 685

原创 [git-lfs] 遇到的相关问题

然后再git clone就没报错了,不过下载速度还是比较慢的,毕竟300MB的模型权重。的时候报了这个错误,我是从别的服务器copy这个权重文件夹过来的。的话,需要重启服务器,导致其它同学的进程被kill。

2024-08-09 20:11:02 930

原创 [shell脚本] shell脚本的热添加+子进程异步同步问题

默认就是同步的,即父进程会等待子进程完成再执行下一条命令。当你把shell脚本跑起来之后,就不要去修改它的内容了。当然也可以实时修理bug,这个就是热添加的好处。,运行起来就会脱离父进程嘛?它是热添加的,如果修改了,会影响运行的结果。

2024-07-27 13:26:06 153

原创 [multiprocessing]多进程并行中的Manager

在Python中为了更加方便的实现多进程的数据共享支持,multiprocessing模块提供了一种数据共享进程的实现,该类进程可以通过Manager类创建,主要支持有两类操作数据形式:列表(list)、字典(dict)在处理dicom数据的时候,实在是太慢了。本来考虑并行的,多线程多进程都可以。后面选择了多进程—现在回想起来,应该考虑一下条件再选择的。多进程之间是没办法访问全局变量的 - 那这个Lock有什么存在的意义吗,我没懂。然后我在主线程中定义了global变量,同时定义了。

2024-07-25 17:58:30 471

原创 [医学影像分割] nnunet 处理自己的数据集 + 并行训练 +训练时遇到的问题

【代码】[医学影像分割] nnunet 如何创建自己的数据集?

2024-07-14 17:10:31 335

原创 [Wandb] api key怎么查看

好像新建一个项目会显示api key,目前还没有找到api key显示的地方(x。

2024-06-29 20:50:07 7584 1

原创 [XIO错误]

在这里错误代码22表示了X Server的参数错误,而且是IO上的错误。貌似就是一个随机的错误,重新运行代码就能征程运行了。(也有可能是刚好没人跟我竞争资源了)

2024-06-29 20:48:49 664

原创 [C盘清理] 主要是卸载一些很久没用的开发工具

因为我之前npm是安装在nvm环境下的,不是全局的,所以删除nvm就行了,然后把C盘用户目录下的.npm和.vue-cli-ui等类似文件删掉。

2024-06-18 15:28:06 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除