github地址:https://github.com/gpustack/gpustack.git
官方文档地址:https://docs.gpustack.ai/
运行GPUStack
本次部署使用nvidia cuda机器,部署方式使用docker:
执行以下命令,启动 GPUStack 服务器和内置 worker。
docker run -d --name gpustack \
--restart=unless-stopped \
--gpus all \
-p 7080:80 \
-p 10150:10150 \
-p 40064-40131:40064-40131 \
--ipc=host \
-v /raid/quxj/gpustack-data:/var/lib/gpustack \
gpustack/gpustack \
--worker-ip $ip
页面登录: http://ip:7080
ui页面默认用户: admin
获取admin默认密码:
docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password
界面效果:
添加worker(可选)
您可以向 GPUStack 添加更多 GPU 节点以形成 GPU 集群。您需要在其他 GPU 节点上添加 worker 并指定 and 参数以加入 GPUStack。--server-url
--token
要获取用于添加 worker 的 token,请在 GPUStack 服务器节点上运行以下命令:
docker exec -it gpustack cat /var/lib/gpustack/token
要以 Worker 形式启动 GPUStack 并将其注册到 GPUStack 服务器,请在 Worker 节点上运行以下命令。请务必将 URL、令牌和节点 IP 替换为您的特定值:
docker run -d --name gpustack \
--restart=unless-stopped \
--gpus all \
-p 10150:10150 \
-p 40064-40131:40064-40131 \
--ipc=host \
-v gpustack-data:/var/lib/gpustack \
gpustack/gpustack \
--server-url http://your_gpustack_url --token your_gpustack_token --worker-ip your_worker_host_ip
注意:
支持异构集群。无论是什么类型的设备,您都可以通过指定 and 参数将其作为工作程序添加到当前 GPUStack 中。
--server-url--token
您可以通过将其他标志附加到 docker run 命令来为命令设置其他标志。
您可以使用 flag 或 flag 来允许容器访问主机的共享内存。vLLM 和 pyTorch 使用它来在后台的进程之间共享数据,特别是用于张量并行推理。
--ipc=host--shm-size
该标志用于确保跨工作程序进行分布式推理的连接。如果您不需要跨工作程序进行分布式推理,则可以省略此标志。
-p 40064-40131:40064-40131