CSGHub模型训练和推理引擎全面升级,DeepSeek R1支持来袭!
CSGHub迎来了全新的模型训练和推理引擎升级!此次更新不仅大幅提升了模型推理的效率和性能,还加入了对DeepSeek R1模型的支持。现在,用户可以通过CSGHub实现DeepSeek R1的微调训练,并使用全新的Reasoning模式进行推理。Reasoning模式专为处理复杂的逻辑推理任务设计,能够显著提升处理复杂问题的能力。
与此同时,CodeSouler IDE插件也进行了相应的更新,现已集成DeepSeek R1模型。用户可以直接在IDE环境中选择DeepSeek R1进行推理,无需切换平台或进行复杂操作。该集成大大简化了开发流程,使得用户能够更加高效地进行推理实验和模型调试。
通过这次升级,CSGHub在大语言模型和推理平台领域的能力得到了显著增强,特别是在处理高效推理和复杂任务的场景下。无论是在科研开发还是实际应用中,这一更新都将为用户提供更灵活、更强大的工具,帮助他们轻松应对各种挑战。
CSGHub 推理引擎升级
VLLM:高效推理引擎
VLLM 是由加州大学伯克利分校开发的开源大语言模型推理框架,采用创新的内存管理和执行架构,显著提升大模型推理速度和效率。它支持动态批处理、优化的CUDA内核和多种解码算法,可实现分布式推理,适用于在线客服、实时翻译等场景。目前CSGHub集成的vLLM已升级到v0.7.2版本。
SGLang:高效服务框架,赋能大语言模型与视觉语言模型
SGLang 是一款专为大语言模型和视觉语言模型设计的高效服务框架。它通过优化后端运行时和灵活的前端语言,实现模型的快速部署和高效推理。支持多种生成模型、嵌入模型和奖励模型,具备多模态输入、并行处理和外部交互功能。目前CSGHub集成的SGLang已升级到v0.4.2版本。
示例
升级之后的推理引擎原生支持DeepSeek R1的高效推理和Reasoning输出(Reasoning Outputs)。现在可以使用CSGHub一键启动 DeepSeek R1 推理服务,提升逻辑推理和复杂任务解决能力。
下图为单卡启动R1-Distill-LLama-8B模型的示例:
部署之后用户可以在沙盒环境中直接使用:
CSGHub 微调框架升级
MS-Swift:灵活的大模型微调工具
MS-Swift 是一个轻量级框架,专注于大语言模型(LLM)和多模态模型(MLLM)的高效微调与推理。其核心优势在于PEFT,通过冻结原模型参数并动态加载轻量化适配模块,大幅降低训练显存需求,同时保持模型性能。MS-Swift支持超过300种主流模型(如Llama、Qwen等),提供开箱即用的训练与推理脚本,并集成多模态任务优化能力,适用于医疗、多语言增强等垂直领域定制化需求。目前CSGHub集成的MS-Swiftt已升级到v3.1.0版本。
下图为使用MS-Swift微调R1-Distill-Qwen-1.5B的示例
StarShip CodeSouler IDE插件--新增 DeepSeek R1 选项
此次升级使得 CodeSouler IDE 插件全面接入了 CSGHub 的推理支持功能,极大地方便了用户在 IDE 环境中直接使用自己部署的推理模型。通过这一功能,用户可以在 CodeSouler 内轻松选择并测试不同模型的推理效果,帮助他们更好地理解和优化模型的表现,从而提升开发效率。无论是模型推理的准确性还是响应速度,用户都可以通过实际的推理实验来评估不同模型的效果。
CodeSouler IDE 现在支持直接选择 DeepSeek R1 模型进行推理,并且可以启用 Reasoning 模式。这一模式专为解决复杂逻辑推理任务设计,能够有效提升模型处理多步骤推理和复杂问题的能力。借助 DeepSeek R1 模型,用户可以获得更强大的推理支持,解决更具挑战性的应用场景和任务需求。
CodeSouler IDE插件演示
深度打通CSGHub云平台,IDE界面直接调用R1模型推理资源
实时显存监控+推理热部署,调试效率提升60%
案例演示:用Reasoning模式自动修复423行复杂代码的逻辑漏洞
案例演示:重构代码,提高代码的健壮性和可维护性
此次升级不仅大大增强了 CSGHub 作为大语言模型和推理平台的能力,也进一步提升了 CodeSouler IDE 在 AI 辅助开发领域的竞争力。通过CSGHub,开发者能够更快速地进行模型测试、推理优化和任务解决。
欢迎大家体验这一全新功能,并分享您的使用反馈,以便我们持续改进,为您提供更优质的开发体验和技术支持。