AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

置顶

LDG_AGI

已于 2024-05-25 13:54:54 修改

阅读量8.1k

点赞数 77

分类专栏： AI智能体研发之路-工程篇文章标签：语言模型人工智能自然语言处理 python docker AIGC

于 2024-05-07 18:20:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_48007632/article/details/138531565

版权

博客导读：

《AI—工程篇》

AI智能体研发之路-工程篇（一）：Docker助力AI智能体开发提效

AI智能体研发之路-工程篇（二）：Dify智能体开发平台一键部署

AI智能体研发之路-工程篇（三）：大模型推理服务框架Ollama一键部署

AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

AI智能体研发之路-工程篇（五）：大模型推理服务框架LocalAI一键部署

《AI—模型篇》

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

AI智能体研发之路-模型篇（二）：DeepSeek-V2-Chat 训练与推理实战

目录

二.一行代码完成Xinference本地部署

三.两行代码完成Xinference分布式部署

四.开箱即用webui

2.Running Models

2.1测试qwen1.5-chat

2.2模型存储路径

3.Register Model

4.Cluster Information

五.模型使用

一.引言

上一篇大语言模型推理服务框架—Ollama介绍了Ollama，Ollama以出色的设计一行命令完成推理框架部署，一行命令完成大模型部署，模型的下载不依赖梯子，速度非常快，大幅提升模型部署效率，同时，当有多卡GPU时，Ollama可以自动将模型分片到各个GPU上，博主使用V100显卡（单卡32G显存）部署llama3 70B（预计需要40G显存），自动完成了显存分配。

今天来介绍一下Xinference，与Ollama比较，Xinference自带Webui与用户交互更加友好，只需点一下所需要的模型，自动完成部署，同时，Xinference在启动时可以指定Modelscope社区下载模型，对于无法登陆抱抱脸的伙伴，可以大幅提升模型下载效率。

这里还是想说两句，大模型领域，美帝目前确实是领先的，我们能做的只能是努力追赶，但在追赶的过程中发现，好多优秀的大模型领域开源项目，都是默认配置hugging face的，一方面是下载模型时间甚至超过了熟悉项目本身，另一方面是压根连不上导致项目跑不起来，导致在这片土地上水土不服。当然对在这片热土上生存的企业及工程师，可能学习门槛的提升，也是一件好事，天热的技术护城河哈哈

最低0.47元/天解锁文章

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。