- 博客(116)
- 收藏
- 关注
原创 ubuntu24.04系统,容器内算法服务运行一段时间cuda突然不能使用
是指执行程序或任务的环境或平台,在不同的上下文中,"运行时" 可能有不同的含义。对于 Docker 和 NVIDIA Container Toolkit 中的运行时,它主要指的是负责管理和执行容器的底层组件。默认情况下,Docker 并不能直接访问 GPU 资源,原因是 GPU 的管理需要专门的驱动程序和工具。运行时,Docker 容器能够更好地与 GPU 进行交互,充分利用硬件资源,满足高性能计算和深度学习训练的需求。运行时,这样它才能正确地与 GPU 驱动进行通信,并将 GPU 资源暴露给容器。
2024-12-20 09:48:37
1140
原创 NVIDIA MPS
当使用MPS时,MPS Server会通过一个 CUDA Context 管理GPU硬件资源,多个MPS Clients会将他们的任务通过MPS Server 传入GPU ,从而越过了硬件时间分片调度的限制,使得他们的CUDA Kernels 实现真正意义上的并行。MPS基于C/S架构,配置成MPS模式的GPU上运行的所有进程,会动态的将其启动的内核发送给MPS server,MPS Server借助CUDA stream,实现多个内核同时启动执行。除此之外,MPS还可配置各个进程对GPU的使用占比。
2024-12-11 16:13:58
981
原创 Ollama的升级教程
输入"ollama -v",查看当前ollama版本如果官网下载很快的话,直接下载国内镜像。大家先去看下有没有新版本的,这是魔塔的ollama镜像,如果更新不及时,可以使用我的备份镜像安装modelscope命令行下载。
2024-12-06 11:01:19
6510
原创 Ollama 服务配置-常用环境变量
最新版Ollama开始支持从Huggingface Hub上直接拉取各种模型,包括社区创建的GGUF量化模型。OLLAMA_VERSION环境变量与安装脚本一起使用,以安装特定版本的 Ollama,包括预发行版。可以在 releases 页面中找到版本号。编辑 systemd 服务。这将打开一个编辑器。2. 对于每个环境变量,在。
2024-12-06 09:56:45
20206
原创 在Ubuntu系统中将SQL文件导入到MySQL数据库:
ubuntu 安装mysql参考文章:ubuntu 安装mysql_ubuntu安装mysql-优快云博客命令行导入sql文件【以Ubuntu为例】_ubuntu命令行下如何读取.sql-优快云博客
2024-08-20 09:46:53
354
原创 docker版本安装攻略
如果已经安装了 NVIDIA Container Toolkit,你应该能在输出中看到有关 NVIDIA 的信息。这个命令将输出一些关于 NVIDIA GPU 的信息,包括安装的驱动版本。如果这个命令返回了一个版本号,那么 Git LFS 已经安装在你的系统上。如果已安装 Docker 或 Docker Compose 但版本不符合要求,则需要卸载它们。如果已安装 Docker,此命令将输出当前安装的 Docker 版本。: 如果是通过包管理器安装的 Docker Compose,可以用。
2024-06-04 15:41:40
1406
1
原创 notpad++正则化,利用关键字符删除整行
首先,ctrl+f,选中[替换],勾选正则表达式(可以勾选[匹配大小写],不用勾选[匹配新行])。在[查找目标]框输入[^(.*)"car_no_clean"(.*)$\n]。在$后加上\n,可以将被替换的行直接删除,不加则会将被替换的行变为空格。
2023-11-15 14:24:00
1825
原创 通用的ARM64架构镜像
此链接包含x86架构和ARM架构的pytorch镜像,镜像里面已下载好各种第三方库,GPU版本的pytorch可用。缺点:镜像有点大。
2023-08-29 16:32:08
767
原创 华为鲲鹏+银河麒麟v10 安装 docker-ce
设备:硬件:仅有ARM处理器,无GPU和NPU,操作系统麒麟银河V10,Kunpeng-920#######参考原链接#########在 arm64(aarch64) 架构服务器上基于国产化操作系统安装 docker 服务。
2023-03-10 11:44:49
4827
7
原创 银河麒麟操作系统安装nvidia-container-toolkit
ARM架构下安装nvidia-container-toolkitcurl -s -L https://nvidia.github.io/nvidia-docker/centos8/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.reposudo yum install -y nvidia-container-toolkitsudo systemctl restart dockernvidia-docker 存储库配置
2022-05-16 20:52:15
2528
1
原创 ARM架构上YOLOv5算法部署错误
报错:AttributeError: ‘Upsample‘ object has no attribute ‘recompute_scale_factor‘ 的解决方案解决办法:降低PyTorch的版本到1.9.0No module named ‘skimage‘解决办法:pip install scikit-image
2022-05-16 20:44:15
586
原创 PyTorch和TensorFlow轮子下载链接
#支持amd和x86,操作系统win、macos、linuxtensorflow · PyPI#支持amd、x86和aarch架构,操作系统win、macos、linuxtorch · PyPIarm架构下安装说明,参考链接如下:基于arm架构的ubuntu18 .04安装Anaconda3 + pytorch+python3.9_qq_41426807的博客-优快云博客_arm ubuntu 安装教程...
2022-05-05 15:59:52
1605
原创 在ARM64平台下安装TensorFlow和Pytorch
#TensorFlow安装包Releases · lhelontra/tensorflow-on-arm · GitHub#PyTorch安装过程基于arm架构的ubuntu18 .04安装Anaconda3 + pytorch+python3.9_qq_41426807的博客-优快云博客_anaconda arm#PyTorch安装包torch · PyPI...
2022-04-29 10:37:07
1144
原创 ‘_RSAPublicKey‘ object has no attribute ‘verifier‘
'_RSAPublicKey' object has no attribute 'verifier'错误解决:pip install cryptography==36.0.2 #将版本返回到36.0.2版本;
2022-04-28 20:49:28
1414
原创 ARM64架构下安装PyTorch、TensorFlow以及python第三方库出现的错误
OSError: Could not find library geos_c or load any of its variants ['libgeos_c.so.1', 'libgeos_c.so']解决办法Ubuntu系统执行:sudo apt-get install libgeos-devCentOS系统执行:sudo yum install geos-devel报错:Check the logs for full command output解决:检查是否有这个驱动libpq.
2022-04-28 11:40:04
3068
原创 GPU compute capability(算力)和CUDA版本冲突问题
RuntimeError: CUDA error: no kernel image is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
2022-01-13 14:32:02
7132
原创 英伟达显卡算力查询--A5000、RTX30系列以及GTX
显卡算力查询链接:https://developer.nvidia.com/zh-cn/cuda-gpus#computeCUDA GPUs | NVIDIA Developerhttps://developer.nvidia.com/cuda-gpus?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=18.04&target_type=deb_local#computep
2022-01-13 10:59:07
5502
原创 RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED
GTX 10系类显卡生成的容器CUDA10.2、cudnn7、Pytorch1.8.0、python=3.8可以训练。把镜像加载到RTX 20系类显卡容器训练出现上述错误:RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED目前解决办法:降低pytorch版本,PyTorch=1.7.1,python=3.7怀疑可能是:1.显卡驱动版本问题。2.显卡显存被占用太多。3.还可能是docker镜像并不能完美适应,10系类和20系类
2021-12-09 17:54:21
1294
原创 Error response from daemon: linux runtime spec devices: could not select device driver ““ 解决办法
CentOS7.7离线安装docker之后docker run --gpus all 之后出现上面问题。docker run 不带--gpus all没有出现错误,所以需要安装nvidia-container-runtime。离线安装nvidia-container-runtime:1、在一台联网的机器上执行这两个命令distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io
2021-08-12 20:26:53
478
原创 CentOS7.7离线安装驱动、docker、CUDA和cudnn
第一步:驱动安装1.预、查询命令1、Linux查看显卡信息:(ps:若找不到lspci命令,可以安装 yum install pciutils)lspci | grep -i vga2、使用nvidia GPU可以:lspci | grep -i nvidia3、查看显卡驱动cat /proc/driver/nvidia/version一、前提准备(参考:https://www.cnblogs.com/gollong/p/12655424.html)1.安装依赖环境:yum
2021-08-12 10:52:50
2291
1
原创 用pytorch训练EfficientNet网络。出现错误IndexError: dimension specified as 0 but tensor has no dimensions
if input.size(0) != target.size(0):IndexError: dimension specified as 0 but tensor has no dimensions原因:train或者validation dataset 样本数量与batchsize不是整除的关系解决:调整为整除关系,不再报错(从最大batchsize递减慢慢测试出来的)...
2021-07-23 09:36:04
493
原创 pytorch1.9.0 TypeError: __array__() takes 1 positional argument but 2 were given
#降低pillow的版本即可pip install pillow==8.2.0 TypeError: __array__() takes 1 positional argument but 2 were given#Steps to reproduce the behavior:import torchimport torchvision.transforms as transformsfrom PIL import Imagetfms = transforms.Compose(..
2021-07-21 09:53:07
553
原创 VScode配置libtorch环境(ubuntu18.04+libtorch1.7.0+pytorch1.7.0模型)
出现这个错误的原因是:terminate called after throwing an instance of 'c10::Error'。解答:下面三个.json里面libtorch和build的路径没有给对,是路径错误tasks.json{ "version": "2.0.0", "tasks": [ { "type": "shell", "label": "example-app", //lauch.json preLaunchTask "command": "
2021-05-19 14:47:36
1083
转载 深度学习学习基本概念:batch_size、epoch、 iteration
Note:以识别为例,输入RGB图像,batch=16,在全部训练样本中随机不重复的抽取16张图像作为一个批次,在批次中单独一张图像进行卷积(卷积向下取整),比如卷积层滤波器个数为32,经过卷积之后输出32个特征图,假如类别个数位1万类,这张图像经过整个网络输出得到1万个值,最大的值对应的类别就是这个图像训练出的结果(网络训练的结果:图像对应的类别),16张图像最后都会学到一个结果,作为本次迭代的...
2019-08-20 22:58:01
1442
转载 帕累托最优
转自:https://baike.baidu.com/item/帕累托最优/1768788?fr=aladdin 帕累托最优(Pareto Optimality),也称为帕累托效率(Pareto efficiency),是指资源分配的一种理想状态,假定固有的一群人和可分配的资源,从一种分配状态到另一种状态的变化中,在没有使任何人境况变坏的前提下,使得至少一个人变得更好。帕累托最优状...
2019-07-29 14:39:32
6169
转载 计算机视觉的终极目标
计算机视觉的终极目标:让计算机自动理解图片(视频)的内容。这个终极目标的核心其实可以拆解为一下几个任务:1. 让计算机理解图片的场景(咖啡厅, 教室, 博物馆, 等等),2. 理解场景中包含的物体(餐具,交通工具,人, 动物等等),3. 理解物体所在图片中的位置(bounding box边界框的坐标, 物体的边界点),4. 理解物体之间的关系和行为(是在交谈, 体育比赛,对抗, 等等),...
2019-07-18 09:26:23
1520
原创 Ubuntu操作系统挂载点设置
/boot 1000MEFI 1000Mswap 8G-16G/ 余下所有上面是组装服务器的技术人员告诉我的,顺序不变;另外他告诉我,可以选择自动分区(目前还没试过)此外,我在网上找了点资料Device for boot loader installation:(选择默认还是自己选),组装服务器的人员告诉...
2019-07-11 17:15:31
7926
翻译 硬盘分区的表示方法
硬盘的三种接口:IDE硬盘,它们的名字应该是/dev/hda1、/dev/hda2等;SATA或者SCSI硬盘,它们的名字则是/dev/sda1、/dev/sda2等。硬盘分区的表示方法:那么什么是hda和sda呢?它们分别是Hard Driver Number A和SCSI Driver Number A的简写,也就是说,hd和sd指出了硬盘的接口类型,后面的...
2019-07-11 16:27:18
2531
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人