
xinference
文章平均质量分 56
fly-iot
没什么大不了,一直写代码。
展开
-
【xinference】(19):在L40设备上通过Xinference框架,快速部署CogVideoX-5b模型,可以生成6秒视频,速度比409D快一点
速度不算太快,也需要快6分钟了。比4090D要快一点点。原创 2024-09-08 16:39:54 · 596 阅读 · 0 评论 -
【xinference】(18):在autodl上使用4090设备,通过Xinference框架,快速部署CogVideoX-5b模型,可以生成6秒视频,效果还可以,只支持英文。速度6分钟
开源的模型发展的速度还是挺快的。还是可以做制作一些有意思的视频的。原创 2024-09-08 09:50:54 · 893 阅读 · 0 评论 -
【xinference】(15):在compshare上,使用docker-compose运行xinference和chatgpt-web项目,配置成功!!!
【代码】【xinference】(15):在compshare上,使用docker-compose运行xinference和chatgpt-web项目,配置成功!!!原创 2024-07-06 23:54:17 · 1346 阅读 · 0 评论 -
【xinference】(14):在compshare上,安装nvidia-docker工具,成功启动推理框架xinference-gpu的docker镜像,并运行大模型,非常简单方便!
Compshare GPU算力平台隶属于UCloud,专注于提供高性价4090算力资源,配备独立IP,支持按时、按天、按月灵活计费,支持github、huggingface访问加速。【xinference】(14):在compshare上,使用nvidia-docker方式,成功启动推理框架xinference,并运行大模型,非常简单方便。然后就可以通过界面启动模型了,支持大语言模型,embedding模型,rerank等。UCloud(优刻得)是中国知名的中立云计算服务商,科创板上市,中国云计算第一股。原创 2024-07-06 22:06:16 · 1860 阅读 · 0 评论 -
【xinference】(12):目前最全大模型推理框架xinference,发布0.12.2版本,支持qwen2,glm4等主流大模型推理运行,可以对外提供标准的openai的API接口做服务
可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。进行推理,降低延迟,提高吞吐!🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2。原创 2024-06-23 22:22:12 · 1345 阅读 · 0 评论 -
【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署大模型GLM-4-9B大模型,占用显存18G,速度不错,也挺智能的。
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署大模型glm4-9B-chat大模型,显存18G。是python3.12 版本造成的。原创 2024-06-07 08:55:56 · 1526 阅读 · 0 评论 -
【OrangePi】(2):香橙派OrangePi AIpro设备,安装xinference框架,运行qwen1.5大模型,api接口测试,速度不错,设备也非常精致!
【OrangePi】(2):香橙派OrangePi AIpro设备,安装xinference框架,运行qwen1.5大模型。默认的官方镜像已经配置好了ssh服务,可以直接远程登陆即可。直接使用root进行登陆就行。原创 2024-05-31 07:31:57 · 638 阅读 · 0 评论 -
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端,使用国内源解决nodejs安装问题。本地运行大模型方法
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端。前端使用chatgpt-web,后端使用xinference 项目做api。第二个是 service ,里面有nodejs的服务接口。配置好环境变量就可以使用 npm 安装了。第一个是web 在当前目录。然后就可以启动成功了。原创 2024-05-31 07:20:39 · 585 阅读 · 0 评论 -
特别推荐!在modelscope上可以使用免费的CPU和限时的GPU啦,成功安装xinference框架,并部署qwen-1.5大模型,速度7 tokens/s
在modelscope上可以使用免费的CPU和限时的GPU啦,成功安装xinference框架,并部署qwen-1.5大模型,速度7 tokens/s空闲的时候,会被删除掉。数据不会被保存!单次最长10个小时使用!!原创 2024-05-29 09:02:15 · 1057 阅读 · 0 评论