
开源大语言模型-vllm推理加速的正确姿势
文章平均质量分 95
探索 AI 极速未来:解锁 vLLM 推理加速之旅。本专栏聚焦vLLM 推理加速,带你深入神秘的技术领域。在这里,我将以生动的案例、深入浅出的讲解,为你揭开 vLLM 的神秘面纱。从原理剖析到实际应用,每一步都如同解开一个科技宝藏的密码。
开源技术探险家
非计算机专业出身人士,但于2009年毅然投身IT行业。迄今,拥有15年的开发经验以及10年的项目管理经验。曾先后参与金融、政企、互联网等多个行业领域的数十个项目。对分布式架构、微服务技术以及大数据领域的知识掌握娴熟。当前,致力于人工智能(AI)方向的深入探索,所负责的项目已顺利完成大语言模型和算法的备案工作。
展开
-
开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM(一)
解析Qwen3-8B与vLLM的技术协同逻辑,探讨其在复杂任务中的性能表现及落地价值。原创 2025-05-05 16:01:11 · 13800 阅读 · 8 评论 -
开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-Docker(二)
通过容器化技术整合高性能推理框架vLLM与Qwen3-8B模型,可实现资源高效利用、灵活部署及推理性能优化,为大模型本地化应用提供轻量化解决方案原创 2025-05-06 07:34:21 · 28399 阅读 · 9 评论 -
开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-结构化输出(三)
通过vLLM框架高效部署QWen3-8B模型,并优化提示词工程与输出控制,实现稳定的结构化JSON生成,从而提升推理效率并拓展大模型应用场景。原创 2025-05-06 07:35:24 · 27841 阅读 · 9 评论 -
开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-思考与非思考模式(四)
Qwen3通过“思考模式”与“非思考模式”的双模态架构,实现复杂推理与实时响应的灵活切换,为大语言模型在智能与效率间的平衡提供创新解法。原创 2025-05-07 08:30:00 · 26820 阅读 · 12 评论 -
开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-Tools助力(五)
在人工智能大模型迅速发展的今天,如何让模型更智能地与外部世界交互,成为提升其实际应用能力的关键。原创 2025-05-08 08:30:00 · 26273 阅读 · 12 评论 -
开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-MCP的完美融合(六)
Qwen3-8B接入MCP,实现动态地连接外部工具和服务,从而极大地增强了其处理复杂任务的能力。原创 2025-05-09 07:45:00 · 22660 阅读 · 5 评论 -
开源模型应用落地-qwen模型小试-Qwen3-8B-融合VLLM、MCP与Agent(七)
Qwen3凭借其智能体能力、MCP协议支持与高效部署特性,正加速在金融、制造、科研等多个企业场景中的落地应用,推动智能化转型与业务闭环构建。原创 2025-05-13 10:23:49 · 26454 阅读 · 11 评论 -
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势(一)
DeepSeek-R1-Distill-Qwen-7B模型通过蒸馏技术成功提炼Qwen-7B核心知识,旨在满足小型模型需求,并在全面测试中优化性能和拓展应用边界。原创 2025-02-02 18:05:27 · 18984 阅读 · 12 评论 -
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势(二)
DeepSeek-R1-Distill-Qwen-7B模型通过蒸馏技术成功提炼Qwen-7B核心知识,旨在满足小型模型需求,并在全面测试中优化性能和拓展应用边界。原创 2025-02-03 09:00:00 · 5768 阅读 · 15 评论 -
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势(三)
使用 vLLM 清晰呈现推理过程原创 2025-03-03 09:00:00 · 29930 阅读 · 12 评论 -
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B-Docker助力-模型部署 “光速” 指南
借助Docker简化并加速DeepSeek-R1-Distill-Qwen-7B模型的部署原创 2025-02-24 18:41:56 · 34149 阅读 · 7 评论 -
开源模型应用落地-Qwen1.5-MoE-A2.7B-Chat与vllm实现推理加速的正确姿势(一)
探讨 vllm 与 Qwen1.5-MoE-A2.7B-Chat 的整合原创 2025-02-12 15:42:41 · 9850 阅读 · 16 评论 -
开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(一)
qwen-7b-chat集成vllm,流式输出原创 2024-01-10 14:07:27 · 25654 阅读 · 57 评论 -
开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(二)
gunicorn+flask构建AI服务原创 2024-01-10 15:36:49 · 3239 阅读 · 43 评论 -
开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(三)
supervisor提升服务的稳定性原创 2024-01-11 10:00:00 · 3892 阅读 · 42 评论 -
开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(四)
鉴权和限流提升AI服务的安全性和稳定性原创 2024-01-11 13:24:50 · 2116 阅读 · 48 评论 -
开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(五)
定时任务处理隐藏盲点原创 2024-01-12 09:45:00 · 1765 阅读 · 52 评论 -
开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(六)
使用spacy改变模型自我认知原创 2024-01-13 09:30:00 · 2983 阅读 · 46 评论 -
开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(七)
AI服务性能优化原创 2024-01-14 09:30:00 · 3545 阅读 · 42 评论 -
开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势(八)
qwen1.5-7b-chat集成vllm,流式输出原创 2024-03-01 12:21:36 · 3075 阅读 · 28 评论 -
开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势(九)
qwen1.5-7b-chat集成vllm,构建与OpenAI-API兼容的API服务原创 2024-03-04 09:30:00 · 2452 阅读 · 33 评论 -
开源模型应用落地-Qwen2-7B-Instruct与vllm实现推理加速的正确姿势(十)
Qwen2-7B-Instruct集成vllm,流式输出原创 2024-06-11 13:37:26 · 4482 阅读 · 26 评论 -
开源模型应用落地-Qwen2-7B-Instruct与vllm-单机多卡-RTX 4090双卡(十一)
4090单机双卡部署vllm,并集成qwen2-7b-instruct原创 2024-08-07 13:20:33 · 32455 阅读 · 26 评论 -
开源模型应用落地-Qwen2-7B-Instruct-GPTQ-Int4与vllm-单机多卡-RTX 4090双卡(十二)
4090单机双卡部署vllm,并集成qwen2-7b-instruct-gptq-int4原创 2024-08-07 14:32:46 · 30696 阅读 · 34 评论 -
开源模型应用落地-Qwen2-7B-Instruct与vllm-单机多卡-RTX 4090双卡-基准测试(十三)
4090单机双卡部署vllm和qwen2-7b-instruct,执行基准测试原创 2024-08-08 08:30:00 · 31127 阅读 · 36 评论 -
开源模型应用落地-Meta-Llama-3.1-8B-Instruct与vllm-单机多卡-RTX 4090双卡(十四)
4090单机双卡部署vllm,并集成meta-llama-3.1-8b-instruct原创 2024-08-09 08:30:00 · 39029 阅读 · 27 评论 -
开源模型应用落地-Qwen2-7B-Instruct-Lora与vllm-单机多卡-RTX 4090双卡(十五)
4090单机双卡部署vllm,并集成qwen2-7b-instruct和Lora权重原创 2024-08-12 08:30:00 · 32744 阅读 · 30 评论 -
开源模型应用落地-LangChain高阶-集成vllm-QWen1.5(一)
通过LangChain和Vllm的结合,可以更好地处理对话,提供更智能、更准确的响应,从而提高对话系统的性能和用户体验原创 2024-04-23 11:33:52 · 20326 阅读 · 26 评论 -
开源模型应用落地-LangChain高阶-集成vllm-QWen1.5(二)
通过LangChain和Vllm的结合,可以更好地处理对话,提供更智能、更准确的响应,从而提高对话系统的性能和用户体验原创 2024-04-24 15:18:08 · 19369 阅读 · 27 评论 -
开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-集成vLLM(二)
掌握Qwen2-VL与vLLM集成,提升职业发展增添强大的竞争力原创 2024-09-18 12:11:55 · 23324 阅读 · 22 评论 -
开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-集成vLLM(三)
掌握Qwen2-VL与vLLM集成,提升职业发展增添强大的竞争力原创 2024-09-18 14:49:21 · 21718 阅读 · 21 评论 -
开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-Docker(六)
使用Docker快速体验Qwen2-VL-7B-Instruct模型原创 2024-10-09 08:00:00 · 16546 阅读 · 32 评论 -
开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-vLLM+Docker(七)
通过vLLM的Docker镜像,快速体验Qwen2-VL-7B-Instruct推理效果原创 2024-10-11 15:21:46 · 20668 阅读 · 35 评论 -
开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势(一)
Qwen2.5-7B-Instruct集成vllm,流式输出原创 2024-09-20 15:07:44 · 24035 阅读 · 22 评论 -
开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-Docker(二)
通过docker方式实现Qwen2.5-7B-Instruct集成vllm,流式输出原创 2024-10-06 22:09:19 · 18370 阅读 · 30 评论 -
开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-Docker-OpenResty(三)
通过docker方式实现Qwen2.5-7B-Instruct集成vllm,流式输出原创 2024-10-07 17:09:32 · 21140 阅读 · 35 评论 -
开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-Docker-Tools助力(四)
使用docker集成vllm实现模型推理加速,并使用Tools(工具)增强模型的能力和准确性原创 2024-10-17 18:04:03 · 21490 阅读 · 36 评论 -
开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-结构化输出(五)
通过结构化输出将模型生成的结果组织为易于解析和处理的数据格式。使得后续的数据处理、分析和集成变得更加高效和灵活,便于开发者和应用程序自动提取关键信息,实现更复杂的功能和交互。原创 2024-11-21 18:35:26 · 10979 阅读 · 35 评论 -
开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-动态管理LoRA权重(六)
在vLLM推理加速框架中,动态管理LoRA Adapters的重要性及其对提升模型推理效率和适应性的贡献。原创 2024-11-25 18:50:28 · 8005 阅读 · 32 评论 -
开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-利用KOR框架实现结构化输出(七)
通过结构化输出将模型生成的结果组织为易于解析和处理的数据格式。使得后续的数据处理、分析和集成变得更加高效和灵活,便于开发者和应用程序自动提取关键信息,实现更复杂的功能和交互。原创 2025-01-03 17:23:07 · 9755 阅读 · 38 评论