- 博客(54)
- 收藏
- 关注
原创 UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel anaconda
感觉像是平时在复制指令的时候不小心设置了这个,被别人坑了。使用vim打开文件,在vim命令行中输入。
2025-03-30 01:41:44
127
原创 [医学图像数据的预处理工作] 关于dicom格式怎么处理成为nii.gz为后续使用
当然我觉得如果能一步提取到目标数据,那肯定是最好的,如果不行,那就多步去做。
2025-03-08 17:07:55
254
原创 关于 c10::Half 类型和float不匹配
我在跑大模型推理的时候,遇到了上面的错误。首先有一个问题需要考虑:我希望模型可以在gpu上面推理,但是我默认了模型会自动加载到gpu上面。。。解决方法检查llama模型是不是正确加载到gpu,一半出现 c10:Half 这个类型,模型很大概率是加载到CPU上面去推理的,所以只要修改到gpu上就不会报错了模型推理的时候,记得加上autocase最后代码因为是修改R2genGPT的,所以代码如下:
2025-03-02 16:58:13
386
原创 Ubuntu系统中测试硬盘速度
hdparm 测试中,7112 MB/s 的缓存读取速度表示从内存(RAM)直接读取数据的理论极限速度(依赖内存性能),而236 MB/s 的缓冲磁盘读取速度反映物理磁盘(如硬盘或SSD)的实际连续读取性能,两者差异源于内存(电子传输)和磁盘(物理/接口限制)的本质区别。一般来说大模型都是10GB以上的,但是我发现服务器上面的机械硬盘只有 700KB/s的加载速度,这十分慢。在运行程序的时候,我发现程序一直处在S的(sleep)状态下面,一直卡在硬盘读写,导致模型加载不成功。
2025-03-02 13:47:32
258
原创 【conda环境泄露】所有环境共享了一个包?
他这个location可以看出transformers这个包安装在公共的lib路径上面,非常不合理。主要是conda install要检查一堆信息,太慢了,不如pip一下子安好,当然快也有坏处的。打开 .bashrc 文件,添加下面的内容!配置好路径,记得更改你的路径。所以,在安装环境的时候,一定要使用which pip查看一下安装路径是否正确。,之后conda就会重新进入环境,这个时候会自动退出到base环境。但是对我来说不起作用,我还是配置好路径就行了吧。这个公共的路径就是base环境的路径。
2025-02-25 23:06:47
367
原创 [安装FlashAttention] CUDA版本 和 Nvidia驱动版本
一开始我以为是我 torch 安装的 CUDA toolkit11.8,nvcc -V是12.1会冲突,然后我把torch也换成了CUDA12.1的,但是还是报了神奇的错误。看来flash attention用的是系统的那个CUDA runtime api,而不是conda环境的,所以他说我的CUDA版本太低了。我是使用这个命令安装的,也就是CUDA版本是11.8,在conda环境安装的runtime api是CUDA11.8版本的。嘶,很神奇,不要用官网的那个安装命令。那这样看来我最高能装到12.4。
2025-02-10 21:50:45
1584
1
原创 [vncserver配置过程]
服了,umls的安装需要 X11 ,也就是图形化界面。我使用都没有办法,本来想试试vncserver,结果也是一坨。
2025-01-16 00:21:10
244
原创 [关于dpkg依赖错误的坑] 依赖出错会导致很多问题
当你运行 install / remove 都会被打断,报上面错误,就是遇到了依赖出错问题。运气好的话,你能够输入fix-broken自动解决,但是运气不好就修不好。
2025-01-15 19:17:09
1199
原创 [Linux] 服务器CPU信息
例如,节点0包含 0-31 和 64-95 的 CPU 核心,而节点1包含 32-63 和 96-127 的 CPU 核心。因此,2 个物理 CPU 插槽(Socket(s): 2)和每个插槽 32 个核心就提供了 32 * 2 = 64 个线程(每个物理核心有 2 个线程)。输出中,显示了 CPU(s): 128,这意味着系统实际上识别到128个虚拟CPU或线程数,而不是物理CPU核心数量。因此,在两个 CPU 插槽上,系统总共有 64 * 2 = 128 个虚拟核心(线程)。
2024-12-31 15:06:11
955
原创 [Bert] 提取特征之后训练模型报梯度图错误
训练模型的时候,输入数据x,y不应该requires_grad,而bert模型输出的embeddings默认是requires_grad的,所以会报错。提取完embeddings之后,使用。
2024-12-30 12:43:29
369
原创 [huggingface报错]关于hf的版本问题
想要用pokemon的diffusion模型练一下手,但是环境弄好了之后,报错了x。查到了是 huggingface 的版本太新了,这个函数被删掉了。换完版本之后报了下面的错误。好像只能够手动下载权重了。
2024-11-29 00:48:01
437
原创 [jupyter运行报错] AssertionError: Torch not compiled with CUDA enabled
不知道为什么同一个环境,.py代码能跑,但是jupyter的环境报了这个错误。然后命令行输出的python版本和安装环境时制定的python版本不一致。首先,在命令行能够转成cuda tensor。感觉这个环境也挺奇怪的。
2024-11-23 10:54:15
310
原创 【jupyter】linux服务器怎么使用jupyter
最后conda环境还是没办法安装ipykernel,最后换了一个新的python环境。所以服务器跑jupyter,只需要conda环境装ipykernel。下载完kernel还是报错(那就继续下载)下载完了等待环境处理问题等了好久。
2024-11-22 23:59:54
313
原创 [linux服务器] Exception in thread “main“ java.awt.HeadlessException: No X11 DISPLAY variable was set,
首先我是想用nbia-data-retriever 下载数据的,结果ubuntu服务器没办法使用它下载。使用命令行命令下载时会报上面这个错误。缺失的包需要自己手动安装。
2024-11-05 17:19:13
482
原创 [Bert模型微调]
但是即使反过来,让有效的变成0,他也是能拟合的!所以debug的时候就很烦xxx。很神奇的一个问题,我也不知道后续能不能复现。有效的值为1,无效的为0。
2024-10-20 23:57:51
222
原创 [pytorch] 训练节省显存的技巧
因为偷懒,使用的是 pytorch 自带的 scaler,发现其实没什么用。是更新梯度,但是计算图没有释放,可以使用zero_grad释放计算图。这个我也没有试验过。
2024-09-14 21:36:12
572
原创 [git操作] git创建仓库上传github报错
操作流程如下git init报错如下输入git status按照它的提示,把 .git/index.lock 文件手动删掉,然后重新git add .就可以了。
2024-09-09 21:54:59
530
原创 [Transformer] Attention注意力中的位置编码
vit使用的就是固定的位置编码,是一个形状为的可学习的 tensor。如果预训练的时候,下游任务需要,那么可以采用二维插值。
2024-09-05 12:49:39
448
原创 [center loss] demo
看到 center loss 可以像聚类一样,使用不同的核函数(可以看成是计算距离的函数)计算loss,记录一下这个demo。
2024-09-02 23:14:21
363
1
原创 [torch] loss函数的注意事项
默认是 type.Long, 在计算loss时,不能转换成为float。这也就是说,只有浮点数和复数支持梯度计算。
2024-08-25 21:21:19
221
原创 [stain norm] 病理图片染色处理笔记
在这里插入图片描述](https://i-blog.csdnimg.cn/direct/b8170b71aa3842de82b95c72993bbce4.png。因为要涉及多张病理图片的stain norm,所以需要一对一地进行transforms,但是即使这么做了,使用。reference_image的大小是(2000, 2500)但是sources_image的大小为(512,512)可能最主要的原因还是染色的色域差得有点大吧。还是出现了奇怪的染色情况。颜色确实变深了一点。
2024-08-23 00:41:53
364
原创 [conda]环境更新python
目前装环境、迁移环境还是没有找到一套方便的模板,所以只能很笨地一步一步安装。所以考虑新建一个conda环境,然后把旧环境的库在新环境中重新安装一遍。除此之外,就删掉一些在本地安装地库,然后保留能用pip安装的库,使用。都没有办法完成升级,我猜测可能是有库依赖于python3.7的版本。torch是没办法直接下载的好像,要去torch官网找命令下载。如果有一些库出错,可能需要手动下载。库好像只会记录项目依赖的库。
2024-08-21 16:22:49
242
原创 [服务器运维] gpu幽灵进程处理
这种情况通常是由于所谓的"僵尸进程"引起的。僵尸进程是指那些已经完成任务但没有正确关闭的进程,它们可能因为各种原因未能释放占用的GPU资源。这会导致资源浪费,并且阻碍其他任务的执行。但是有时候这些PID是主进程,已经kill不了了。然后就把这个nvidia下面的进程kill掉就行。有些服务器可能需要sudo权限才能使用。查看当前占用GPU资源的进程。
2024-08-18 15:55:59
301
原创 [R语言] 下载R语言工具并且使用python调用
只需要安装里面的base包就可以了,因为只1用到了SPlit库。工具目前只支持python=3.7及以下的版本。windows 上安装。linux 上私人安装。,直接在shell输入。
2024-08-18 15:33:14
147
原创 [sklearn] 分类指标解惑
weighted 这个参数在函数中,其实就是考虑了的情况(也就是需要传一个sample_weights的参数?官方文档的原文:when average=weighted, calculate metrics for each label, and find their average, weighted by support (the number of true instances for each label).
2024-08-14 21:13:09
685
原创 [git-lfs] 遇到的相关问题
然后再git clone就没报错了,不过下载速度还是比较慢的,毕竟300MB的模型权重。的时候报了这个错误,我是从别的服务器copy这个权重文件夹过来的。的话,需要重启服务器,导致其它同学的进程被kill。
2024-08-09 20:11:02
930
原创 [shell脚本] shell脚本的热添加+子进程异步同步问题
默认就是同步的,即父进程会等待子进程完成再执行下一条命令。当你把shell脚本跑起来之后,就不要去修改它的内容了。当然也可以实时修理bug,这个就是热添加的好处。,运行起来就会脱离父进程嘛?它是热添加的,如果修改了,会影响运行的结果。
2024-07-27 13:26:06
153
原创 [multiprocessing]多进程并行中的Manager
在Python中为了更加方便的实现多进程的数据共享支持,multiprocessing模块提供了一种数据共享进程的实现,该类进程可以通过Manager类创建,主要支持有两类操作数据形式:列表(list)、字典(dict)在处理dicom数据的时候,实在是太慢了。本来考虑并行的,多线程多进程都可以。后面选择了多进程—现在回想起来,应该考虑一下条件再选择的。多进程之间是没办法访问全局变量的 - 那这个Lock有什么存在的意义吗,我没懂。然后我在主线程中定义了global变量,同时定义了。
2024-07-25 17:58:30
471
原创 [医学影像分割] nnunet 处理自己的数据集 + 并行训练 +训练时遇到的问题
【代码】[医学影像分割] nnunet 如何创建自己的数据集?
2024-07-14 17:10:31
335
原创 [XIO错误]
在这里错误代码22表示了X Server的参数错误,而且是IO上的错误。貌似就是一个随机的错误,重新运行代码就能征程运行了。(也有可能是刚好没人跟我竞争资源了)
2024-06-29 20:48:49
664
原创 [C盘清理] 主要是卸载一些很久没用的开发工具
因为我之前npm是安装在nvm环境下的,不是全局的,所以删除nvm就行了,然后把C盘用户目录下的.npm和.vue-cli-ui等类似文件删掉。
2024-06-18 15:28:06
255
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人