自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 LInux+ollama的并发数,prompt和显存占用

测试结果:1.对于请求不超过并发数的请求,响应速度在0.2s以内,超出的请求响应时间较长.2.如果是初次请求,模型的启动时间较长.3.模型的prompt处理长度默认2k,在num_ctx值增大时,超过一个显卡显存数,num_ctx再增大,显存占用明显变大.

2025-03-11 15:30:52 891

原创 ollama+qwq

2.单词 “strawberry” 中有多少个字母 “r”?本次验证,直接使用的默认q4量化版本。1.9.9 和 9.11 哪个更大?这里用到的就是三个简单的问题。3.李白的风格写一首七言绝句。通过ollama启动的qwq。回答结果没有任何问题。

2025-03-06 11:22:37 877

原创 Ktransformers-0.2.2+DeepSeek-R1-Q4_K_M

官方连接来自官方的测试结果llama启动DeepSeek-R1-Q4_K_M 4090*2 decode token: 3.73token/s 速度太慢下面就没再测。

2025-03-05 16:29:03 368

原创 Linux+llama.cpp编译+DeepSeek-R1-UD-IQ1_S本地部署

提示词处理速度(token/s)输出文本速度(token/s)克隆llama.cpp。treads/线程数。

2025-02-26 16:37:39 341

原创 Xinference+Transformers+vLLM 部署qwen2.5-72B

数值越大,占用显存越大,torch.OutOfMemoryError: [address=0.0.0.0:41165, pid=1393874] CUDA out of memory.可以通过界面最下方的vLLM参数设置gpu_memory_utilization,max_model_len。--model-engine vLLM:模型占用显存大小会受到"gpu_memory_utilization"参数影响,默认0.9。在下载模型的时候如果显示上面错误可能是因为huggingface源问题。

2025-01-15 16:15:24 1228

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除