教程:Tutorial/docs/L2/Huixiangdou/readme.md at camp3 · InternLM/Tutorial · GitHub
安装环境和依赖
pip install BCEmbedding==0.15 没这个版本,我猜是0.1.5
pip install BCEmbedding==0.1.5 cmake==3.30.2 lit==18.1.8 sentencepiece==0.2.0 protobuf==5.27.3 accelerate==0.33.0
测试通过:

启动Gradio


两轮回答:
什么是RAG 搜索增强生成?



什么是向量数据库?



怎么上传自己的文件构建知识库回答?
在云盘,找到root/huixiangdou/repodir文件夹
把你的文件复制进去, 我上传了两个PDF论文

再运行一下命令。这个命令是向量化和存储
python3 -m huixiangdou.service.feature_store
方便起见,我就把原来repodir下的文件 和workdir下数据库的两个文件夹都清空了
可以看到两篇论文被载入处理


再启动后端命令行测试
python3 -m huixiangdou.main --standalone

提问新问题
第一个问题:什么是大模型增强知识图谱?



回答还不错
第二个问题:数据检索组织方法是什么?



这个问题回答效果不好,可能和pdf格式有关,也可能和分块大小有关。
看上去召回的文本块太大导致prompt很大。
RAG选哪个?个人观点:
想构建自己的本地RAG知识库,建议试试RAGFlow,docker构建方便,定制选项很多,效果可见。
看到公众号上很多文章推AnythingLLM,不推荐,看上去搭建很快,回答效果差的无法接受。
FastGPT、Dify、Qanyhting都试过,个人感觉RAGflow效果更好,希望帮你少走弯路。
1038

被折叠的 条评论
为什么被折叠?



