- 博客(9)
- 收藏
- 关注
原创 使用vLLM多卡部署大模型测试推理性能
本文对比了3090和4090显卡在vLLM多卡推理场景下的性能表现。测试使用Qwen3-14B模型。结果显示:4090在1-16并发度下均优于3090,尤其在16并发时吞吐量提升达52.3%,耗时更稳定。4090凭借更强的核心和更大的L2缓存,在高并发场景下性能衰减更小。建议个人用户选择性价比高的3090,企业级应用则推荐性能更强的4090以获得更高的服务效率。
2025-11-27 09:57:43
776
转载 ResNet-50模型实测深度学习场景显卡性能
测试对比了NVIDIA RTX 5090、4090和3090显卡在ResNet-50模型训练中的性能表现。结果显示,5090在FP32和FP16混合精度下的样本吞吐量分别为4090的1.5倍和3090的3.7倍左右。虽然5090需要适配新的软件环境,但其显著的性能提升使其具有较高性价比。测试参数包括显存使用、GPU利用率和训练吞吐量等指标。
2025-11-19 14:24:00
860
转载 比较4090和3090在ComfyUI的Wan2.2工作流的性能表现
本文对比了RTX 3090和4090显卡在ComfyUI中运行Wan2.2文生视频模型的性能表现。测试采用ComfyUI预置的14B模型工作流模板,通过API调用生成5秒视频。结果显示:3090平均耗时142.6秒,4090仅需59.4秒,4090速度约为3090的2.4倍。虽然两卡显存和GPU利用率相近,但4090性能优势与显卡参数差距相符,在视频生成场景表现显著优于3090。
2025-11-14 14:48:14
546
转载 vLLM大模型推理场景显卡性能实测
使用vLLM测试3090和4090显卡在不同并发场景下的性能表现。采用Qwen3:8b FP16模型,通过控制变量法测试1-16并发度下的推理性能。结果显示:1-8并发时4090性能稳定领先3090约17%,16并发时3090出现瓶颈而4090保持优势,吞吐量提升25%。测试指标显示4090在高并发场景具有更好的扩展性,显存和GPU利用率相近但计算效率更高。
2025-11-06 14:50:45
925
原创 Ollama和vLLM大模型推理性能比较
Ollama和vLLM是大模型部署的两种主流工具。Ollama适合个人开发和资源受限环境,提供简单易用的本地体验;vLLM则适用于高并发生产环境,具有卓越的推理性能。在RTX3090上测试Qwen3-8B模型显示:低并发时两者性能接近,但随着并发量增加,vLLM优势显著。测试表明,对性能要求高的生产环境应选择vLLM,而轻量级开发可考虑Ollama。
2025-11-04 17:13:15
965
原创 魔改3080显卡在大模型推理场景的性能表现
RTX 3080 20G显卡是基于3080 10G魔改的卡,目前市面比较多得被用于小规模参数的大语言模型推理场景,被认为是性价比比3090还高的推理显卡。这里使用Ollama部署Qwen3模型进行推理场景的性能实测,比较3080 20G和3090 24G的差异到底多大?
2025-10-30 14:49:54
1414
原创 Ollama大模型推理场景显卡性能比较
使用Ollama的快速模型部署,来实测英伟达的RTX 3090和RTX 4090这两张显卡,在大语言模型推理场景中的性能差异。选择 Qwen3的模型进行测试,考虑到3090和4090的显存都是24GB,分别选择一个FP16精度和一个Q4_K_M量化后的大模型进行测试。
2025-10-24 11:51:05
1229
原创 使用PyTorch进行显卡AI性能实测
基于显卡产品规格的纸面数据,在实际应用中,特别是AI方面的应用,各种显卡的实际性能到底如何,或者如何更有效地从应用的角度测试显卡的性能?我们选择了英伟达的RTX 3090和RTX 4090两张显卡,基于实际模型训练的场景下实测性能来比较下被称为「上一代卡皇」的 3090 和「当前消费级主力」的 4090 的实际性能到底差多少。
2025-10-20 20:20:54
574
原创 选择显卡时需要关注哪些参数
AI时代GPU算力已经变成了普遍的需求,那么在购买显卡或者租用GPU云算力的时候,怎么选择合适的显卡呢,需要关注哪些参数?
2025-10-10 17:15:38
357
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅