大模型
文章平均质量分 86
小趴菜-Ethan
菜鸟一枚
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
vLLM-benchmarks本地离线测试
本文详细记录了在NVIDIA H200 Tensor Core GPU服务器上离线部署DeepSeek-R1-0528(671B)大语言模型的完整流程。采用vLLM推理框架,通过8张H200显卡(140G显存/张)实现多卡并行,配置了FP8量化和前缀缓存优化。部署过程包括Docker环境搭建、vLLM容器启动、离线缓存配置以及Conda基准测试环境准备。测试使用vLLM官方工具,模拟高并发场景(200请求/秒),设置2048输入/512输出长度,完成10000次请求的性能评估。文档涵盖了硬件配置(Dell原创 2025-08-31 02:12:48 · 1016 阅读 · 0 评论 -
Dify修改工作流上传文件数量限制
Dify版本1.1.3的更新主要包括以下几个方面:首先,对文件上传的限制进行了调整,将单个文件上传的最大限制从10增加到1000,并修改了批量上传的相关限制。其次,对Docker的启动方式进行了调整,改为从本地web启动而非镜像启动。此外,还更新了Docker的配置文件,确保前端代码的正确构建和容器的顺利启动。这些改动旨在提升系统的文件处理能力和部署灵活性。原创 2025-05-21 11:24:06 · 1963 阅读 · 4 评论 -
Ubuntu24.04环境部署大模型【Ollama+Dify+Xinference】
操作系统环境:ID=ubuntu显卡:NVIDIA GeForce RTX 4090Ollama:版本 0.6.5作用:Ollama 是一个开源的本地大语言模型运行框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。Dify:版本1.1.3Dify 是一个开源的大语言模型(LLM)应用开发平台,它致力于为开发者提供一站式、低代码甚至无代码的 AI 应用开发体验。Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。原创 2025-04-21 16:37:19 · 3879 阅读 · 0 评论
分享