云端体验 DeepSeek V3 0324/ Qwen2.5 VL 32B

部署运行你感兴趣的模型镜像

一、创建最新vLLM 实例

登录OneThingAI平台OneThingAI算力云 - 热门GPU算力平台,进入镜像中心,选择vLLM推理引擎,点击创建实例(8卡可跑,更好的体验需要2台H20

通过【文件管理】查看DeepSeek 相关模型

二、补全DeepSeek V3 0324模型相关配置文件

cd /app/deepseek
modelscope download --model deepseek-ai/DeepSeek-V3-0324 \
--exclude *.safetensors --local_dir ./DeepSeek-V3-0324

结果如图:

三、启动DeepSeek V3 0324

vllm serve /app/deepseek/DeepSeek-V3-0324 --tensor-parallel-size 8 --max-model-len 8192 \
--enable-prefix-caching --trust-remote-code --host 0.0.0.0 --port 6006 --enforce-eager \
--max_num_seqs=16   --gpu_memory_utilization 0.95

四、补全 Qwen2.5-VL-32B-Instruct

模型路径:/root/.cache/modelscope/hub/models/Qwen

cd /root/.cache/modelscope/hub/models/Qwen
modelscope download --model Qwen/Qwen2.5-VL-32B-Instruct \
--exclude *.safetensors --local_dir ./Qwen2___5-VL-32B-Instruct

五、启动Qwen2.5-VL-32B-Instruct

vllm serve /root/.cache/modelscope/hub/models/Qwen/Qwen2___5-VL-32B-Instruct --tensor-parallel-size 8\ 
--max-model-len 128000 --enable-prefix-caching --trust-remote-code --host 0.0.0.0 --port 6006 \
--enforce-eager  --gpu_memory_utilization 0.95

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值