- 博客(22)
- 收藏
- 关注
原创 【磕岩日记】模型搭建和训练过程中的显存管理
设置梯度积累步数:gradient accumulation step:batch==1, gradient_accumulate_step==2, 等价于batch==2, gradient_accumulate_step==1,据说可以节省显存,但实验表明没区别。参考:【pytorch笔记,训练时显存一直增加到out-of-memory?4-【特定】搭建的模型用到了一些预训练模型,可以把预训练模型放到cpu上,降低问题复杂度。训练模型时,发现随着训练次数的增加,显存占用逐渐增大,直到OOM。
2025-02-24 20:29:57
224
原创 【小白日记】一些比较基础的问题(持续更新)
电脑在跑模型的时候发出喀嚓喀嚓的声音,检查发现是风扇松动,所以一到需要散热的时候,风扇转起来就会有声音(非常大),送去换部件后好了。连续几天笔记本电脑都开机输密码后黑屏(只能看到鼠标),重启后恢复正常,最后卸载了最新的win11更新,可以正常开机,不必每次都重启。linux系统插上耳机以后听不到声音,发现是设置里的声音-输出-输出设备设置错了,应该设为扬声器。
2025-02-14 15:06:49
87
原创 【磕岩日记】关于CUDA环境和需要编译的模块
完成CUDA版本切换之后呢?这句命令还是不会报error,但代码还是会跑不起来,因为python setup.py install执行后,会在特定的地方,生成一系列文件(egg info之类的,我也不太懂),如果这些文件存在,切换版本后再跑install其实相当于没起作用,所以。一般情况下,CUDA版本(CUDA11.3, CUDA11.7这类)只影响torch(pytorch)相关包的版本号的选择,以前我会擅自改变一下,从本机CUDA版本出发,稍微把torch系列包的版本号降低一点,也没出过问题。
2024-11-28 21:41:50
367
原创 【小白日记】qt.qpa.plugin问题
conda新建了一个含较低版本opencv-python的虚拟环境,代码成功运行;又过了一天,原先的环境也能正常运行代码了。然后再次运行代码就能打印一些可能有助于debug的信息。根据这些报告,安装缺失的组件,可能可以解决问题(对我无效)。前一天还能跑的代码,第二天就跑不动了,报上面的错,还有一句不知所云的“段错误:核心已转储”
2024-09-19 20:16:57
489
原创 【小白日记】一个关于继承的小bug
那么,如果将child类型的对象传给func函数,代码不会报错,但是在运行中会出现不符合预期的情况,比如无法访问到child对象中的属性。而且在调用函数时,指定传入函数的参数的类型(似乎是较高版本的python自带的功能)
2024-09-19 19:56:19
165
原创 【小白日记】本地环境移到服务器上(docker+conda)
策略:服务器上已有docker(和nvidia-docker),考虑将本地环境配置为镜像,上传到服务器后加载镜像,用容器跑代码。问题描述:本地anaconda配好了某代码所需环境,需要把代码放到服务器上跑。3-进入容器,在容器中创建指定python版本的虚拟环境。4-在容器中配好环境后,将容器保存为新的镜像。6-将tar文件传到服务器上,并加载为镜像。2-在含anaconda的镜像上构建容器。1-从云端拉取含anaconda的镜像。7-在服务器上使用docker镜像。5-将镜像保存为tar文件。
2024-09-13 19:33:52
1028
原创 【小白日记】python编写图形界面:tkinter库
e.g. tk.Label(args=...).grid(args=...)是正确的写法,tk.Button(args=...).grid(args=...)是错误写法,且python解释器不会划线报错,但实际上这会产生一个None类型的变量。但是lambda语句创建的函数不是全局的,针对编写GUI时,“回调函数与按钮绑定”的需求,需要考虑回调函数的生命周期,但lambda函数可能会在创建出来以后被“释放”用一个全局函数作为生产函数的“工厂”,根据传入的“需求”,生产不同的(lambda)函数。
2024-09-03 16:14:13
461
原创 【磕岩日记】记一次酣畅淋漓的debug
然而实际上,相机是人摆的,相机在世界系下的坐标、相机系坐标轴在世界系下的朝向更好获得,且同样拥有类似性质,即:对于c2w(相机到世界矩阵),第一列、第二列、第三列分别等于相机系三条坐标轴在世界系下的朝向,第四列“T”等于相机在世界系下的三维(齐次)坐标。其中R是3x3旋转矩阵底部加一行0,T是平移量底部加一个1.世界坐标系的原点记为[0,0,0,1],该点在相机系下的三维坐标记为[xc0,yc0, zc0,1](齐次表达)。从世界系到相机系,需要左乘一个变换矩阵,w2c矩阵,也称“相机外参”。
2024-07-09 17:20:06
516
原创 【磕岩日记】docker的安装和使用和排雷
高版本docker将集成到了内部,在创建容器时设置参数--gpus即可,但还是需要下载nvidia-container-toolkit或者nvidia-docker2。docker,镜像和容器,镜像运行后成为容器,容器中配环境,容器中运行代码。不要用snap下载,否则无论如何都用不了gpu。如何判断是否是snap下载:snap list。如果输出里有docker,卸载,然后从官网重装。容器和主机的文件通信:-v挂载。【docker下载】【docker使用】容器,创建,参数说明。
2024-03-22 21:13:35
747
原创 【磕岩日记】跑模型方法论
4.3 这个是真的玄学:在anaconda-envs-环境名-lib-python3.x-site-packages中,同样一个模块(设为module1)会对应两个文件夹,一个叫module1, 一个叫module1-xxxxxx-dist-info,如果存在dist-info文件,python会认为包存在,但我遇到了dist-info存在,而module1本身不存在的情况。最好打开txt看一下,如果有些包指定了版本号,且是“>=x.xx.xxx”,需要通过搜索查找(或者遭遇报错)把合适的版本确定下来。
2024-03-05 13:40:19
1038
原创 【已解决】硬盘文件系统检查和修复
fsck默认针对ext2文件系统。比如硬盘为ext4文件系统,使用fsck.ext4。检查:sudo dumpe2fs -h <需要检查的分区,如/dev/sdb1>文件系统错误可能的表现:硬盘变为只读;应用程序->磁盘(或者叫“磁盘管理”)->找到出问题的硬盘->再次检查:sudo dumpe2fs -h /dev/sdb1。检查文件系统结束后,点击齿轮状图标,选择“修复文件系统”修复:sudo fsck.ext4 /dev/sdb1。修复完毕后问题解决;,点击齿轮状图标,选择“检查文件系统”
2024-01-26 15:16:42
903
1
原创 【小白日记】linux环境下从零开始安装(编译)COLMAP
,估计是因为版本不对应,而cmake这一步会自动查找/安装需要的nvidia-cuda-toolkit.解决方案:将CMAKE_CUDA_ARCHITECTURES设置为与CUDA架构对应的数值,例如30X0架构对应"86",20X0架构对应"70"我是一个一个手动安装的,果然出现了依赖问题,主要是在qtbase5-dev上。如果电脑上已经有CUDA(比如我的是CUDA11.7),在后续编译中,会出现cmake命令无法正确运行的问题。注意,不只是退出自己创建的虚拟环境,是要退出base。
2024-01-10 17:09:30
2769
3
原创 【小白日记】使用百度飞桨paddle及其产品
当你在没有paddlepaddle的情况下,使用已经训练好的旗下产品,发现出现了“Module not found”的错误,于是你本着缺什么就装什么的精神,自信install paddlepaddle,intuitively, 就像搞深度学习要有深度学习平台(pytorch,tensorflow),使用paddle系的产品,也需要先。看到1你已经知道了,GPU、驱动和CUDA都要备齐,否则只能用CPU龟速跑。可以检查是否支持GPU,如果输出True,说明可以支持。
2024-01-10 16:40:52
858
原创 【已解决】anaconda配环境“solving environment“卡住(linux)
注:如果没有.condarc文件,可以运行conda config --set show_channel_urls yes,也可以在sudo之前提前运行。配环境时,发现卡在solving environment这一步(十多分钟,查资料看到有卡了几个小时成功了的,但通过以下方法解决)这一步的意思应该是更新conda, 本来觉得应该没必要的,但因为solving environment还是很卡,所以更新了。↑把框中的内容复制到.condarc中,保存退出。↑查看源信息,如果已经换过源了就不需要了。
2023-12-20 22:08:53
10803
2
原创 【已解决】ubuntu“无法安全地用该源进行更新”
根据上述博客中的解决方案,将命令行中的“3B4...(省略)”替换为自己报错中的签名“DDCA...(省略)”,问题解决。实测问题在于“由于没有公钥,无法……
2023-12-18 19:27:47
945
1
原创 【小白日记】Ubuntu20.04开机显示“ACPI ERROR”(可以正常开机)
开机,在“软件与更新”中,找到"additional drivers",下拉到最底部,将当前驱动更换为nouveau驱动。虽然可以开机,开机后在终端检查nvidia显卡驱动也有正常输出,但有点担心,所以考虑修复问题。将"quiet splash"修改为"quiet splash nomodeset"重启电脑,ERROR仍然出现,nvidia-smi和nvcc -V都有正常输出。再次在"软件与更新"中换回相应的nvidia驱动。总结:只要不影响使用,暂时先这样吧。总结:可能是更新内核引起的驱动问题。
2023-12-12 20:04:03
2632
2
原创 【小白日记】Ubuntu20.04连接无线网
重启后,lspci -v可以看到无线网驱动,右上角无图标,推测因为电脑插着网线,有线网优先级更高。进入设置,发现左边栏有了wifi选项。关闭有线网后可以启动无线网,搜索附近wifi,正常连接。记录解决办法(uname -r 或 uname -a 查看内核版本;开机后进入ubuntu系统,发现右上角没有扇形wifi图标,设置中也没有wifi选项。lspci -v查看硬件及驱动情况,发现没有无线网驱动iwlwifi。
2023-12-12 19:54:32
2895
原创 【小白日记】从零开始配置工位电脑
实验室科研学习必然用到工作站和linux系统,我初次接触,踩了不少坑,回头看也有一些操作不太得当,所以写下这篇博文,整合个人经验和网上的各种教程,方便将来再次重装时参考(最好是不要走到这一步),欢迎批评指正。
2023-11-07 19:59:24
611
原创 【已解决】红米手机无法连接无线网的处理办法
我用方法4成功连接网络。这一问题有可能是系统没有升级/自动升级/升级中断导致的,联网后我升级系统至最新版本,经测试可以正常使用随机MAC。小米系的手机容易出现无线网方面的问题,平时使用需要注意。今天手机突然连不上校园网了,但手机可以连其他手机的热点,排除硬件问题;找到一台可以联网的手机等设备,将这台设备的IP地址等信息原样填写到手机上,并保存。方法4. 进入网络详情,更改“隐私”项,不使用随机MAC,改为“使用设备MAC”选中需要连接的网络,进入网络详情,将IP设置(一般默认为DHCP)改为静态;
2023-11-02 21:19:12
8509
原创 【已解决】Ubuntu找不到命令“yum”
Debian系列: 1 常见的安装包格式 deb 包,安装deb包的命令是 “dpkg -参数” 2 包管理工具 apt-get 3 支持tar包。RedHat 系列: 1 常见的安装包格式 rpm 包,安装rpm包的命令是 “rpm -参数” 2 包管理工具 yum 3 支持tar包。Linux安装软件时,如果有apt-get命令,直接用apt-get命令安装。1 RedHat系列:Redhat、Centos、Fedora等。2 Debian系列:Debian、Ubuntu等。
2023-11-01 21:39:26
918
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人