目录
关于多软件和同一个时刻请求ollama输出卡顿问题,或者加载缓慢的问题
前言
本篇章会介绍使用ollama模型出现的一些问题点,来使你更加的了解和使用调用时需要注意的问题。
如若没有ollama模型的话,可以参考这篇文章去快速学习和下载。
AI智能体(Agent)大模型入门【13】--智能体入门-优快云博客
关于ollama指令会出现指令查找不到模型的问题

确保把任务管理器的ollama运行程序,和服务都先关掉。
然后win+r调用cmd打开控制台
请不要直接输入
ollama list
这样子会打开ollama服务,这时候不会出现所看到的问题。
如果你本身下载过列表的话,会直接输出,不过我们不考虑这,没下载会出现空的问题。
我们这里讨论默认都已经有下载模型的情况。
所以具体要怎么操作?
还是接着之前的,,在控制台输入ollama serve指令
ollama serve
会出现这样子的一个窗口

然后再重新打开新的一个cmd窗口,这个窗口不关闭,保持运行
然后输入
ollama list
然后之前的服务窗口

会去请求,查找模型

会发现这时候是空的,防止某些人觉得我在使用之前造假的内容,我一起截屏

很直观的发现就是没有模型
那就会出现一些问题点
在一些测试模型,和部署调试的时候,我明明已经下载了,但是我要操作就会出现这个问题。
不过有些人估计到现在还是没有明白我在做什么。
这里就说明一下,在做本地ollama模型调试运行使用的时候,需要打开ollama serve但是会导致出现端口冲突,原因是ollama客户端开启着,所以要关闭ollama客户端,但是关闭就会导致无法查找到本地已经部署好的模型问题。
其实已经说明白了,这个问题的解决办法就是需要去配置环境的系统变量去解决,这个很简单,需要找到模型的文件路径就ok了,不会的可以查找借用ai工具进行解决。
关于多软件和同一个时刻请求ollama输出卡顿问题,或者加载缓慢的问题
这里为了介绍这个问题,我们需要借助其他的软件调用ollama模型(注:是本地下载好的,而不是云端模型)
这里可以使用cherry stdio这个软件,不知道这个的可以参考这篇文章
cherry studio 一个测试AI模型和MCP的桌面应用_cherry studio 本地mcp测试-优快云博客
关于ollama模型设置大概这样子就ok了,api秘钥可以不填,因为使用的是本地模型,而不是ollama的云端模型

然后终端打开操作运行ollama本地模型

为防止误差,我们这里使用同一个模型qwen模型测试
注:注意模型测试的时候需要依据自己的电脑配置来,防止gpu跑跑满导致电脑卡顿,或者死机的情况

我们这里输入相同的问题来测试
然后直接先运行终端,不用等输出完,直接运行cherry stdio的界面的

可以发现cherry stdio的已经开始跑深度思考了,然后cmd还在等待

当cherry stdio的跑完了,本地端口的才会跑
也就是说,同一个端口的话,多次请求的话,只有当加载完之后才会继续请求。
解决方案
-通过创建多个运行服务的实例端口,来实现“”伪并行“”
ollama是本身支持并行的
可以通过设置环境变量,这是创建4个实例
OLLAMA_NUM_PARALLEL=4 ollama serve
这会让 Ollama 加载 4 个模型实例,支持 4 个并发推理请求。
注:这两个方法都会显著增加内存占用(每个实例都加载一次模型)。
1万+

被折叠的 条评论
为什么被折叠?



