基于LangChain-Chatchat + Ollama + Qwen2-7b搭建本地私有中文知识库和 chatGPT(Ubuntu24 纯CPU)

前言
目前好多优秀的开源大模型,如Meta的 llama 3.1、阿里的 qwen2、谷歌的 gemma2,都各有千秋,甚至媲美 chatGPT-4,最近公司准备搭建一套知识库,从数据安全考虑,准备利用网上开源的大模型和部署框架搭一套试试效果,这里记录下过程。

一、项目环境

操作系统:Ubuntu24(无显卡,虚拟的一个16核/32G/500G硬盘的服务器)
Python:3.9(Anconda3)
LLM大模型:qwen2-7b
Embedding模型:quentinz/bge-large-zh-v1.5
模型部署框架:Ollama
应用集成框架:LangChain-Chatchat

二、项目部署

  1. 创建 Python3.9 环境(自行安装好 Anconda3),这里直接开始创建环境,执行以下命令:
conda create -n chatchat python=3.9
conda activate chatchat
  1. 安装Ollama,执行以下命令:
curl -
### 使用Qwen构建本地知识库 为了使用Qwen创建管理本地知识库,需遵循一系列配置流程来确保环境设置正确并能高效运行。当基于LangChain-ChatchatOllama以及Qwen2-7b搭建本地私有中文知识库时,在Ubuntu环境下操作可以完全依赖于CPU资源完成部署工作[^1]。 #### 创建项目文件夹与初始化Chatchat 首先建立一个新的目录用于存放所有相关数据,并进入此目录内通过执行`chatchat init`命令来进行必要的初始化动作。这一步骤会准备所需的初始结构以便后续能够顺利集成其他组件。 ```bash mkdir my_knowledge_base && cd $_ chatchat init ``` #### 安装Python库 为保障系统的稳定性兼容性,推荐更新至最新的Python包版本。可以通过Pypi官方源或者清华大学镜像站获取这些软件包,从而加快下载速度并提高安装成功率。对于国内用户来说,选择后者通常更为便捷有效。 ```bash pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install langchain chatchat ollama qwen -i https://pypi.tuna.tsinghua.edu.cn/simple/ ``` #### 配置Qwen模型参数 针对Qwen的具体应用情况调整相应的超参数设定非常重要。考虑到性能优化方面的需求,尤其是在仅有CPU支持的情况下,合理规划batch size、sequence length等关键属性有助于提升整体效率而不至于过度消耗计算资源。 #### 加载预训练模型 利用已有的Qwen2-7b权重文件加载预先训练好的语言模型实例。这一过程涉及指定路径指向存储位置,并调用适当API接口实现无缝对接。具体方法取决于所选用框架所提供的功能特性。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name_or_path = "path_to_qwen_2_7b" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) ``` #### 构建索引机制 为了让查询请求更快速地返回匹配项,有必要建立起一套高效的检索体系。这里可能涉及到倒排列表、TF-IDF加权策略或是更加复杂的向量空间模型的选择。根据实际应用场景的不同做出最合适的决定至关重要。 #### 测试与验证 最后但同样重要的是进行全面的功能测试以确认整个架构能否正常运作。输入多样化的样本集作为检验材料,观察输出结果是否符合预期目标;同时也要关注响应时间指标,确保用户体验达到满意水平。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值