茴香豆:知识问答助手作业 + 上传自己的文档

教程:Tutorial/docs/L2/Huixiangdou/readme.md at camp3 · InternLM/Tutorial · GitHub

安装环境和依赖

pip install BCEmbedding==0.15  没这个版本,我猜是0.1.5
pip install BCEmbedding==0.1.5 cmake==3.30.2 lit==18.1.8 sentencepiece==0.2.0 protobuf==5.27.3 accelerate==0.33.0

测试通过:

启动Gradio

两轮回答:

什么是RAG 搜索增强生成?

什么是向量数据库?

怎么上传自己的文件构建知识库回答?

在云盘,找到root/huixiangdou/repodir文件夹

把你的文件复制进去, 我上传了两个PDF论文

再运行一下命令。这个命令是向量化和存储

python3 -m huixiangdou.service.feature_store

方便起见,我就把原来repodir下的文件 和workdir下数据库的两个文件夹都清空了

可以看到两篇论文被载入处理

再启动后端命令行测试

python3 -m huixiangdou.main --standalone

提问新问题

第一个问题:什么是大模型增强知识图谱?

回答还不错

第二个问题:数据检索组织方法是什么?

这个问题回答效果不好,可能和pdf格式有关,也可能和分块大小有关。

看上去召回的文本块太大导致prompt很大。

RAG选哪个?个人观点:

想构建自己的本地RAG知识库,建议试试RAGFlow,docker构建方便,定制选项很多,效果可见。

看到公众号上很多文章推AnythingLLM,不推荐,看上去搭建很快,回答效果差的无法接受。

FastGPT、Dify、Qanyhting都试过,个人感觉RAGflow效果更好,希望帮你少走弯路。

<think>嗯,用户现在明确询问茴香豆知识库是否支持存储镜像文件。结合之前的对话历史,用户是企业IT人员,正在评估知识库平台选型,特别关注多格式支持能力。 用户提供的引用材料很有价值:引用[1]提到安装依赖时包含poppler-utils等文档处理工具,引用[2]显示茴香豆支持多模态版本,引用[5]则涉及模型文件管理。这些线索暗示系统具备处理二进制文件的基础能力,但需要验证具体实现。 技术层面需要区分两个概念:1) 文件存储能力 2) 文件内容解析能力。茴香豆的架构设计显示:其核心是RAG检索系统,依赖文本向量化。镜像文件本质是二进制数据,系统可通过minio等对象存储组件保存文件元数据,但无法直接解析镜像内容——这点与PDF不同(PDF可通过poppler提取文本)。 用户可能实际想问的是"能否像管理文档一样检索镜像内容"。答案是否定的,因为镜像缺乏可索引的文本特征。不过可以补充说明变通方案:将镜像说明文档与镜像文件关联存储,通过文档元数据实现间接检索。 考虑到用户的技术背景,回复需要明确三点:存储可行性、检索局限性、替代方案。同时保持与之前推荐的Confluence方案对比(后者通过插件可实现镜像基础管理)。</think>根据技术文档分析,**茴香豆知识库原生不支持镜像文件(如 ISO/Docker 镜像)的存储和解析**,但可通过扩展架构实现关联管理。具体说明如下: --- ### 一、茴香豆原生能力限制 1. **支持格式明确范围** 官方文档[^2][^3] 明确列出支持格式: ```markdown pdf / word / markdown / excel / ppt / html / txt ``` **镜像文件未被包含**,系统无法直接解析其内容。 2. **技术实现聚焦文本处理** 依赖链显示其设计目标为**文本提取与向量化**: - 安装 `poppler-utils` 等工具处理 PDF/Word 文本[^1] - 通过 `BCEmbedding` 等库实现文本向量化[^5] - **无二进制文件解析模块**(如提取镜像元数据) --- ### 二、扩展存储方案(需自研集成) 若需管理镜像文件,可通过混合架构实现: ```mermaid graph LR A[茴香豆知识库] -->|文本元数据关联| B(MinIO 对象存储) B --> C[Docker 镜像/ISO 文件] A -->|检索时调用| D[镜像元数据库] ``` **操作步骤**: 1. **存储层**:将镜像文件上传至 MinIO/S3 对象存储 2. **元数据层**:在茴香豆中创建 Markdown 文档,记录: - 镜像名称、版本、用途 - MinIO 文件路径(例:`s3://bucket/image.iso`) 3. **检索层**:用户搜索关键词时,返回关联文档和下载链接[^3] --- ### 三、典型应用场景示例 ```python # 在茴香豆知识库中添加镜像元数据(Markdown 示例) --- image_name: "Ubuntu-Server-22.04" description: "生产环境基础镜像" storage_path: "s3://company-images/ubuntu-22.04.iso" checksum: "sha256:9f86d08..." --- ``` --- ### 四、选型建议 | 需求 | 方案 | |---------------------|--------------------------| | 直接存储/解析镜像 | ❌ 不适用(需自建扩展架构) | | 关联镜像元数据管理 | ✅ 通过 Markdown 实现 | | 镜像内容语义检索 | ❌ 不支持(需定制开发) | > 注:若需完整镜像管理能力,建议结合 **Harbor(Docker 镜像库)** 或 **Nexus Repository** 使用,通过超链接在茴香豆中集成访问入口[^3]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值