
大模型
文章平均质量分 67
蛐蛐蛐
个人主页:https://quyu.github.io/
展开
-
大模型量化框架GPTQModel的基本使用方法
简单来说,当data_dir这个参数指定的时候,第一个参数path可以用来指定数据类型,如json,csv,text,xml等。相信大家看一下我给的例子就能明白。最简单的方法就是直接通过微调数据集构造校准数据集,然后再参考一下GPTQModel的主页例子。原创 2025-03-23 19:59:21 · 484 阅读 · 0 评论 -
AutoGPTQ报torch._C._LinAlgError: linalg.cholesky: The factorization could not be completed的解决办法
我试了一下,确实能解决问题。但是发现量化之后的模型开始输出乱码了。确实挺让人无奈的,建议大家量化的时候直接试试GPTQModel,可能就没有这个bug了。我试了一下,发现直接用AutoGPTQ也会出现类似的问题,例如这里直接使用其主页(原创 2025-03-15 12:16:44 · 304 阅读 · 0 评论 -
Llama factory微调后的模型怎么通过ollama发布
这样的命令就能生成ollama中的模型,但是经过我测试发现,如果modelfile里只有一行,生成的模型可能会出现答非所问的情况。顾名思义,就是把huggingface类的文件转成gguf。把Lora模块和其基模型merge到一起之后,就可以通过ollama之类的框架提供服务了。就可以生成一个名为qwen2.5:7bwhole的微调之后qwen2.5 7B的模型了。原创 2025-03-09 22:04:55 · 966 阅读 · 0 评论 -
在Dify中实现联网检索功能(模拟DeepSeek)
然后再运行第一个命令重新启动就行了,这时候再搜索的话就会快很多。但是还是发现有一个问题,按道理来说是访问bing的API,可为啥很多情况下返回的都是zhihu的页面,知乎充值了?DeepSeek发布之后,感觉联网检索功能变成标配了。这个是没错的,但是第一篇博客把启动docker的命令行写错了,应该是在Dify根目录下运行。把肯定用不到的engine禁掉,只留下Bing。剩下的内容大家参考之前列出的网页就可以基本实现了,先简单总结这么多。(我的本机地址是1.80),因为上面这个命令已经做过端口映射了!原创 2025-02-23 16:15:36 · 5890 阅读 · 5 评论 -
用Llama Factory单机多卡微调Qwen2.5时报torch.OutOfMemoryError: CUDA out of memory的解决办法
但是GitHub这里说得比较简略了,具体怎么解决呢,在yaml文件的method那一部分加入:deepspeed: examples/deepspeed/ds_z3_config.json。如果需要微调比较大的模型,例如Qwen2.5-32B,那么在两个3090上可能不够用,这里我用A6000×4的服务器。呵呵呵,这个bug还不知道有什么办法能解决,现在对32B的模型可以这样,72B的就无能为力了。哪怕不加上微调模块,模型输出也是胡说八道(输出乱码)。ps:从loss看似乎没训练好,但是总是可以跑了。原创 2025-02-08 11:03:26 · 1502 阅读 · 0 评论 -
Error response from daemon: Get “https://registry-1.docker.io/v2/“: request canceled while的解决办法
其实到最后也没搞清楚,是其中一步起了作用,还是很多步综合起来起了作用。不过相信遇到类似问题的朋友按照我这种操作,应该还是可以解决这个问题的。这两天试了一下在Ubuntu上安装docker版本的Dify,说来惭愧,之前一直没怎么用过docker。碰到了一些问题,这里记录一下。这两篇博客都已经讲的比较详细了,我就不再重复了。首先我不知道为什么要加这么多源,难道大家就不能选几个有用的源?其次,发现加了之后依然没用。结果发现没有任何区别。原创 2025-01-22 22:12:43 · 3184 阅读 · 2 评论 -
多个nvidia GPU怎么限制功率
这也是个很简单的问题,我简单总结一下,目前在家里有一台双3090涡轮版的PC,声音真的很大,可是很多时候我们其实并不需要其功率很好,只要显存够用就可以。看有些人说Ubuntu上现在不能设置,可是我在24.04上测试是可以设置的。另外,上面的文章往往只提到用一个GPU时的情况,我总忘记怎么指定两个卡。重启后需要重新运行。原创 2024-09-22 21:37:14 · 1366 阅读 · 0 评论 -
Windows 11怎样在不同Anaconda环境中安装不同版本的CUDA
感觉当时的解决方法还比较复杂。最新有一台新的Windows 11系统想安装低版本的CUDA,感觉肯定不能使用上面这个博客的方法了(要改什么软连接和修改环境变量),所以搜了些博客,但是发现有些并不好用。可以看到这两次的CUDA版本确实是不一样的。感觉这个方法比我几年前总计的简单多了,不知道在Linux上适用不,感觉也应该适用,感兴趣的朋友可以自己测试一下。发现CUDA的版本并没有变化,呵呵呵,这个方法不靠谱啊。原创 2024-09-09 17:19:19 · 850 阅读 · 0 评论 -
调用Ollama API的时候怎么指定输入长度(上下文长度)
这样就指定了上下文长度为8192。原创 2024-08-15 21:42:06 · 3866 阅读 · 0 评论 -
Ubuntu 24.04上报:Error: could not connect to ollama app, is it running?的解决方法
其实User,Group之类的都不需要修改,主要是要加上端口号才能正常运行。原本42GB的qwen2:72b变成49GB了,interesting,虽然大小只变化了一点,但在CPU上之后速度慢了很多。可以看到服务是active的。说起来这个问题真实让人无语。原创 2024-08-10 22:36:06 · 10684 阅读 · 3 评论 -
在Ubuntu 24.04上安装ollama报curl: (28) Failed to connect to github.com port 443的解决方法
在一个新的Ubuntu 24.04上安装Ollama,结果报类似于:curl: (28) Failed to connect to github.com port 443 after 136027 ms: Couldn't connect to server的错,想想可能还是网络的问题。则不能解决问题(和上面这些稍有不同,我这里查到的github.com的网址是:140.82.112.3)。发现这样确实可以解决问题。如果socks5代理应该这样写(我之前参考的这篇博客。发现这种方法依然不能解决问题。原创 2024-08-05 22:57:05 · 4122 阅读 · 0 评论 -
Windows系统上怎么设置Ollama环境变量
例如我们在windows环境变量中可以把OLLAMA_KEEP_ALIVE改成1h,OLLAMA_NUM_PARALLEL改成2,就可以同时有两个并发访问,并且驻留时间为1h了(如果用ollama ps则会显示59 minutes)。如果要改驻留时间,就修改OLLAMA_KEEP_ALIVE,那这个环境变量是什么单位呢?原创 2024-07-22 10:09:57 · 6131 阅读 · 0 评论 -
使用LangChain+Ollama的时候怎么使用其他的embedding模型
其中有两个是Deprecated的,而我们平时用到的HuggingFace的embedding model都基本以SentenceTransformer形式提供,我测试了一下,embeddings.huggingface.HuggingFaceBgeEmbeddings这个类是可以使用的,embeddings.huggingface.HuggingFaceInstructEmbeddings这个会报错,也没有仔细检查原因。经过测试,发现比Ollama自己的embedding模型的中文效果好多了。原创 2024-06-25 09:23:55 · 4381 阅读 · 3 评论 -
用LangChain调用Ollama的时候一个小问题
来测试其是否正常,通常会出来“Ollama is running”,然后我习惯性地从Chrome把地址拷贝到VS Code,真是太奇怪了,试了几次才发现,原来不能带那个反斜杠!这个问题真是让人无语。说来让人无语,简单记录一下。安装好Ollama后,我们通常通过访问。原创 2024-06-21 16:53:50 · 2284 阅读 · 0 评论