
AI
文章平均质量分 97
zyplanke
捅破IT背后的那层窗户纸
展开
-
vLLM私有化部署大语言模型LLM
vLLM是一种用于大规模语言模型(LLM)推理的框架,旨在提高模型的吞吐量和降低延迟。vLLM通过优化内存管理和调度策略,显著提升了模型在高并发场景下的性能。vLLM利用了一种名为PagedAttention的注意力机制,该机制借鉴了虚拟内存和分页技术,以减少缓存内存(KV Cache)的浪费,并允许在请求之间灵活共享KV缓存。这种设计使得vLLM在保持与现有系统相同延迟水平的情况下,能够将吞吐量提高2到4倍。原创 2025-01-14 00:38:48 · 3965 阅读 · 0 评论 -
Open WebUI 与 AnythingLLM 安装部署
本文分别介绍了Open Web UI和AnythingLLM的安装、部署和使用。 包括如何与Ollama对接,并使用Ollama上的模型(大语言模型)。原创 2025-01-09 00:18:04 · 7464 阅读 · 1 评论 -
Ollama私有化部署大语言模型LLM
是一个开源的大型语言模型(LLM)服务工具,旨在简化在本地环境中部署和运行这些模型的过程。它支持多种操作系统,包括Windows、macOS和Linux,并且可以通过Docker容器进行管理。Ollama封装了llama.cpp库,并提供与OpenAI兼容的API,支持多种语言模型如Llama3、Mistral和Gemma。此外,Ollama还支持并行请求和多线程操作,提高了效率。用户可以通过简单的命令行工具或Web界面(OpenWebUI、Hollama等)来管理和运行模型。原创 2025-01-08 18:32:31 · 1650 阅读 · 0 评论