bagepython-优快云博客

原创 LInux+ollama的并发数,prompt和显存占用

测试结果:1.对于请求不超过并发数的请求,响应速度在0.2s以内,超出的请求响应时间较长.2.如果是初次请求,模型的启动时间较长.3.模型的prompt处理长度默认2k,在num_ctx值增大时,超过一个显卡显存数,num_ctx再增大,显存占用明显变大.

2025-03-11 15:30:52 891

原创 ollama+qwq

2.单词 “strawberry” 中有多少个字母 “r”？本次验证,直接使用的默认q4量化版本。1.9.9 和 9.11 哪个更大？这里用到的就是三个简单的问题。3.李白的风格写一首七言绝句。通过ollama启动的qwq。回答结果没有任何问题。

2025-03-06 11:22:37 877

原创 Ktransformers-0.2.2+DeepSeek-R1-Q4_K_M

官方连接来自官方的测试结果llama启动DeepSeek-R1-Q4_K_M 4090*2 decode token: 3.73token/s 速度太慢下面就没再测。

2025-03-05 16:29:03 368

原创 Linux+llama.cpp编译+DeepSeek-R1-UD-IQ1_S本地部署

提示词处理速度(token/s)输出文本速度(token/s)克隆llama.cpp。treads/线程数。

2025-02-26 16:37:39 341

原创 Xinference+Transformers+vLLM 部署qwen2.5-72B

数值越大，占用显存越大，torch.OutOfMemoryError: [address=0.0.0.0:41165, pid=1393874] CUDA out of memory.可以通过界面最下方的vLLM参数设置gpu_memory_utilization，max_model_len。--model-engine vLLM：模型占用显存大小会受到"gpu_memory_utilization"参数影响，默认0.9。在下载模型的时候如果显示上面错误可能是因为huggingface源问题。

2025-01-15 16:15:24 1228

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人