- 博客(10)
- 收藏
- 关注
原创 将大模型量化为GGUF模型文件
大语言模型在各种领域都有着广泛的应用,但是也面临着一些挑战,比如模型的大小、计算量和内存占用都很大,这限制了模型在某些设备上的部署和运行。为了解决这些问题,模型量化应运而生。模型量化是一种将浮点计算转成低比特定点计算的技术,它可以有效的降低模型计算强度、参数大小和内存消耗,从而提高模型的推理速度和效率。它是一种新的二进制模型文件,它可以对深度学习模型进行高效的压缩,大大减少模型的大小和内存占用,从而提高模型的推理速度和效率,同时兼顾模型的推理质量。
2024-06-17 10:41:15
1182
原创 基于Ollama+MaxKB快速搭建企业级RAG系统
然后启动ollama的服务,注意容器内ollama的服务是在11434端口,然后我们通过。Ubuntu22系统,Docker20以上,Docker的安装参考。
2024-05-06 15:47:49
946
原创 Mac本地部署LLama3+AnythingLLM+Docker方式的本地知识库
就可以访问anythingLLM了。3.安装Enchanted。1.拉取镜像,终端执行。3.配置ollama。
2024-05-03 22:58:46
4098
3
原创 在阿里云上部署Llama3(中文版本)
默认情况下直接运行以下代码即可体验llama3中文对话,请自行修改。2.新建requirements.txt文件,插入。1.新建conda环境。
2024-04-22 20:22:54
2147
1
原创 在阿里云上部署Qwen-7B和Qwen-VL
5.安装torch torchvision torchaudio。7. 如果您的设备支持fp16或bf16,我们建议安装。)以获得更高的效率和更低的内存占用。3.进入Qwen-7B文件,下载模型。3.进入Qwen-VL文件,下载模型。6.安装A卡版本auto-gptq。1.创建conda虚拟环境。1.创建conda虚拟环境。
2024-04-17 16:53:59
1306
原创 利用 langchain 思想实现的基于本地知识库的问答应用
一种利用思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。依托于本项目支持的开源 LLM 与 Embedding 模型,本项目可实现全部使用模型。与此同时,本项目也支持 OpenAI GPT API 的调用,并将在后续持续扩充对各类模型及模型 API 的接入。本项目实现原理:过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k。
2024-04-11 14:03:39
731
原创 部署ChatGLM3 api接口访问,微调模型
打开LLaMA-Factory项目data文件夹下的dataset_info.json,最后一行插入。2.一切看起来都非常的简单,现在只需要学会配置训练集和添加自己的训练集,就能完成大模型微调。新建self_cognition.json,插入数据。使用LLaMA-Factory,loar微调。1.下载/安装LLaMA-Factory。4.测试api,成功的话会终端显示对话。*本地调用测试失败,暂时没有解决。
2024-04-10 20:49:38
1170
原创 在阿里云上部署ChatGLM3
默认已经帮我们配置好了环境变量、网络,装好了python甚至pytorch、tensorflow等等,所以这些正常比较麻烦的操作已经不需要我们再搞了。有多文件需要修改变量路径,把默认的“THUDM/chatglm3-6b”修改为“/mnt/workspace/ChatGLM3/chatglm3-6b”因为模型很大(总共11.6GB),所以从modelscope上git下载(放到ChatGLM3下级目录中)conda的配置,将阿里云的源替换为清华的。
2024-04-09 18:30:26
758
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人