第三节作业:基于 InternLM 和 LangChain 搭建你的知识库

本文介绍了如何配置环境,通过收集并处理上海人工智能实验室的开源数据,构建本地向量数据库,利用HuggingFaceEmbeddings和Chroma技术。同时,文章还涉及如何定制LLM子类和创建检索问答链,以及部署WebDemo的步骤,最后鼓励读者在特定领域实践并分享成果。

参考文档:https://github.com/InternLM/tutorial/tree/main/langchain
基础作业:复现课程知识库助手搭建过程 (截图)

1.环境配置
2.知识库搭建
(1)数据收集
收集由上海人工智能实验室开源的一系列大模型工具开源仓库作为语料库来源,为语料处理方便,我们将选用上述仓库中所有的 markdown、txt 文件作为示例语料库。注意,也可以选用其中的代码文件加入到知识库中,但需要针对代码文件格式进行额外处理(因为代码文件对逻辑联系要求较高,且规范性较强,在分割时最好基于代码模块进行分割再加入向量数据库)。
在这里插入图片描述
(2)在本地构建持久化的向量数据库

# 首先导入所需第三方库
from langchain.document_loaders import UnstructuredFileLoader
from langchain.document_loaders import UnstructuredMarkdownLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from tqdm import tqdm
import os

# 获取文件路径函数
def get_files(dir_path):
    # args:dir_path,目标文件夹路径
    file_list = []
    for filepath, dirnames, filenames in os.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值