- 博客(7)
- 资源 (4)
- 收藏
- 关注
原创 利用Nginx+VLLM在本地部署多个大模型服务
随着deepseek等开源大模型的爆火,本地化部署大模型服务变成了切实需求。基于vllm框架部署的本地大模型服务操作简单,部署后可以很方便地利用OpenAI compatible接口访问该服务。然而,vllm serve模式每次运行仅支持部署一个大模型,想运行多个大模型服务时,除了将多个服务运行在不同的端口上,是否可以利用一个公共的端口转发多个不同大模型服务的流量以节约端口占用?
2025-04-01 23:29:50
374
原创 一种在ubuntu下安装管理多个CUDA版本的优雅方法
conda管理的不同python开发环境内可能会遇到需要不同版本的CUDA的情况,安装多个版本的CUDA后,手动修改/usr/lib/cuda软链接麻烦且不优雅,可以利用 update-alternatives 命令和conda激活配置项方便的管理所需的CUDA版本。当然,本方法也适用于其他任何多版本软件的便捷化管理(例如gcc)。同样的也可以配置一些失活配置使得在退出该环境时恢复默认的cuda版本。
2025-03-09 15:03:18
210
原创 source ~/.bashrc后页面卡住
问题:某天,启动某容器后attach进入其中,发现shell卡住,ctl+c后强行退出,发现conda base环境未生效,检查~/.bashrc文件看不出有问题。手动source ~/.bashrc,复现了shell卡顿,定位是~/.bashrc中的问题。通过添加日志打印,发现在 scl enable xxx bash 语句前处于循环执行 source ~/.bashrc的状态,定位是这一语句出错。解决:删除 scl enable xxx bash 语句。
2023-12-20 16:21:12
1112
1
原创 如何使用parted对磁盘进行分区、扩容
(3)resize2fs:增大或者收缩未加载的“ext2/ext3/ext4”文件系统的大小,在分区容量变化后,需要执行此命令才能在df结果中体现容量变化;都是分区命令,fdisk只能分2T以下存储,超过2T可挂载整个磁盘,但不能分区,且仅支持MBR类型的分区表;都是分区表类型,MBR(msdos)逻辑上只支持最多4个主分区,GPT支持任意的分区划分,更方便;逻辑卷管理,在分区概念层次之上的概念,用于对多个分区的构成的卷组的管理,仅作记录本文暂不涉及;例如,对已安装的磁盘 /dev/sdb。
2023-10-10 17:59:59
1899
原创 【debug记录】ChatGLM2-6b微调中遇到的问题
fix:在报错点发现获取到的 master_addr 为自定义的主机名而非 localhost,导致网络连接错误,故将 ~/anaconda3/envs/chatglm2-6b/lib/python3.10/site-packages/torch/distributed/rendezvous.py 的244行将 master_addr 变量强制设为127.0.0.1而非自定义的主机名。
2023-08-30 16:20:39
1269
1
原创 基于bazel源码编译tensorflow的CPU版本wheel包
本文中,由于云端服务器的性能较弱,故在本地的CPU机器上编译。(1)环境:centos 7.9.2009,docker 23.0.1,python3.8,git 2.39.2,java 1.8.0,gcc 9.3.1,tensorflow 2.9.1,bazel 5.0.0。注意,这里编译的tensorflow不需要任何针对CPU的优化(因为本地机器和云端服务器的CPU版本有差异),否则本地编译的wheel包仍不能在云端服务器中import。避坑笔记,知识分享,原创不易,转载请注明。
2017-05-16 12:16:12
320
C语言编写的简单图书馆
2016-11-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人