茴香豆：知识问答助手作业 + 上传自己的文档

最新推荐文章于 2025-12-02 19:01:55 发布

原创最新推荐文章于 2025-12-02 19:01:55 发布 · 589 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

教程：Tutorial/docs/L2/Huixiangdou/readme.md at camp3 · InternLM/Tutorial · GitHub

安装环境和依赖

pip install BCEmbedding==0.15  没这个版本，我猜是0.1.5

pip install BCEmbedding==0.1.5 cmake==3.30.2 lit==18.1.8 sentencepiece==0.2.0 protobuf==5.27.3 accelerate==0.33.0

测试通过：

启动Gradio

两轮回答：

什么是RAG 搜索增强生成？

什么是向量数据库？

怎么上传自己的文件构建知识库回答？

在云盘，找到root/huixiangdou/repodir文件夹

把你的文件复制进去，我上传了两个PDF论文

再运行一下命令。这个命令是向量化和存储

python3 -m huixiangdou.service.feature_store

方便起见，我就把原来repodir下的文件和workdir下数据库的两个文件夹都清空了

可以看到两篇论文被载入处理

再启动后端命令行测试

python3 -m huixiangdou.main --standalone

提问新问题

第一个问题：什么是大模型增强知识图谱？

回答还不错

第二个问题：数据检索组织方法是什么？

这个问题回答效果不好，可能和pdf格式有关，也可能和分块大小有关。

看上去召回的文本块太大导致prompt很大。

RAG选哪个？个人观点：

想构建自己的本地RAG知识库，建议试试RAGFlow，docker构建方便，定制选项很多，效果可见。

看到公众号上很多文章推AnythingLLM，不推荐，看上去搭建很快，回答效果差的无法接受。

FastGPT、Dify、Qanyhting都试过，个人感觉RAGflow效果更好，希望帮你少走弯路。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VC_Alexa

关注关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

L2-茴香豆：企业级知识库问答工具-任务

soul_sniper的博客

08-31

1038

在第一部分中，我们利用 Web 版茴香豆实现了零代码开发部署一款 RAG 知识助手，在接下来的部分，我们要动手尝试将茴香豆从源码部署到本地服务器（以 InternlmStudio 为例），并开发一款简单的知识助手 Demo。

进阶岛 茴香豆：企业级知识库问答工具

cgq081616的专栏

08-25

797

一、任务介绍二、根据文档内容搭建环境2.1、搭建茴香豆知识库2.2、上传文档到知识库2.3、测试知识助手的效果①中国神话故事②年报数据建议：上传的文档能够查看原文2.4、通过配置正反例调优知识助手效果在真实的使用场景中，调试知识助手回答相关问题和拒答无关问题（如闲聊）是保证回答准确率和效率十分重要的部分。茴香豆的架构中，除了利用 LLM 的功能判断问题相关性，也可以通过手动添加正例（希望模型回答的问题）和反例（希望模型拒答的问题）来调优知识助手的应答效果。

参与评论您还未登录，请先登录后发表或查看评论

【亲测免费】 BCEmbedding模型更新：新版本发布与特性详解

gitblog_02997的博客

01-17

1430

BCEmbedding模型更新：新版本发布与特性详解在当今信息爆炸的时代，及时跟进软件和模型的版本更新显得尤为重要。今天，我们将详细介绍BCEmbedding模型的最新版本——bce-embedding-base_v1，以及它带来的新特性和改进。新版本概览 bce-embedding-base_v1于2024年1月3日发布，这是继上一个版本后的重要更新。以下是一些关键的更新日志摘要：模型发...

茴香豆：企业级知识库问答工具

qq_46448377的博客

02-08

760

茴香豆是由书生·浦语团队开发的一款开源、专门针对国内企业级使用场景设计并优化的知识问答工具。在基础 RAG 课程中我们了解到，RAG 可以有效的帮助提高 LLM 知识检索的相关性、实时性，同时避免 LLM 训练带来的巨大成本。在实际的生产和生活环境需求，对 RAG 系统的开发、部署和调优的挑战更大，如需要解决群应答、能够无关问题拒答、多渠道应答、更高的安全性挑战。因此，根据大量国内用户的实际需求，总结出了三阶段Pipeline的茴香豆知识问答助手架构，帮助企业级用户可以快速上手安装部署。

【书生3.5】茴香豆：企业级知识库问答工具

qqzhuimengren的博客

09-04

1384

一款强劲工具---茴香豆：企业级知识问答工具

chasemydreamidea的博客

10-02

1367

一：概述一：概述茴香豆是一款由书生·浦语团队开发的企业级知识问答工具，它专门针对国内企业级使用场景进行了设计和优化。

茴香豆：搭建RAG智能助手第三课实战

weixin_62638966的博客

06-08

1177

RAG 生态、三种范式、RAG优化方法、RAG关键问题（检索什么？何时检索？如何检索？）、RAG 发展前景、RAG评测（目标、评测维度、评测框架）茴香豆是基于LLMs的领域知识助手，由书生浦语团队开发的开源大语言模型的应用。专为即时通讯工具IM中的群聊场景优化的工作流，提供及时准确的技术支持和自动化问答服务。应用RAG技术，茴香豆能理解和高效准确回应与特定知识领域相关的复杂查询。应用场景 & 场景难点智能客服：技术支持、领域知识对话IM工具中创建用户群组，讨论、解答相关问题。

茴香豆：企业级知识库问答工具（学习笔记）

weixin_49463617的博客

08-31

1106

在实际的生产和生活环境需求，对 RAG 系统的开发、部署和调优的挑战更大，如需要解决群应答、能够无关问题拒答、多渠道应答、更高的安全性挑战。配置文件默认的模型和下载好的模型相同。茴香豆的架构中，除了利用 LLM 的功能判断问题相关性，也可以通过手动添加正例（希望模型回答的问题）和反例（希望模型拒答的问题）来调优知识助手的应答效果。修改完配置文件后，就可以进行知识库的搭建，本次教程选用的是茴香豆和 MMPose 的文档，利用茴香豆搭建一个茴香豆和 MMPose 的知识问答助手。格式文件的上传和删除。

茴香豆：企业级知识问答工具实践闯关任务

outsideinthesun的博客

09-08

2050

是由书生·浦语团队开发的一款开源、专门针对国内企业级使用场景设计并优化的知识问答工具。在基础 RAG 课程中我们了解到，RAG 可以有效的帮助提高 LLM 知识检索的相关性、实时性，同时避免 LLM 训练带来的巨大成本。在实际的生产和生活环境需求，对 RAG 系统的开发、部署和调优的挑战更大，如需要解决群应答、能够无关问题拒答、多渠道应答、更高的安全性挑战。因此，根据大量国内用户的实际需求，总结出了的茴香豆知识问答助手架构，帮助企业级用户可以快速上手安装部署。

茴香豆：企业级知识问答工具实践闯关任务-进阶

wtt88的专栏

08-26

976

Web 版茴香豆部署在浦源平台，可以让大家零编程体验茴香豆的各种功能。

5. 进阶关卡-茴香豆：企业级知识库问答工具

lldhsds的专栏

01-20

1303

茴香豆是由书生·浦语团队开发的一款开源、专门针对国内企业级使用场景设计并优化的知识问答工具。

Python Pandas多列合并成一长列(扁平化)

视觉算法小趴菜的博客

11-29

430

本文介绍了Pandas中三种数据扁平化方法：melt()按变量名和值两列重组数据，concat()垂直拼接多列，stack()将多列转为单列。测试数据显示melt()保留原列名信息，concat()和stack()仅保留数值。三种方法各有特点，适用于不同的数据扁平化需求。

人工智能领域博客

11-28

1859

摘要：本文详细解释了Spark Driver端与Worker端在OSS认证上的核心区别。Driver端通过Spark配置自动认证，而Worker端（独立Python进程）需显式提供认证信息。认证来源优先级为：1)Driver传递参数，2)环境变量，3)IAM角色。文章分析了架构差异导致的不同认证方式，并推荐从Driver传递认证信息的解决方案。当前实现已采用该方案，通过Spark配置或环境变量获取认证后传递给Worker进程，确保PyArrow能正确访问OSS数据。

python中快速更新ini文件之方法~

最新发布

英布之剑的优快云 Blog

12-02

100

Python标准库中的configparser模块可方便读写INI格式配置文件。通过ConfigParser()创建对象，使用read()读取文件，set()修改键值，write()保存更改。示例代码展示了更新INI文件的完整流程：创建解析器、读取文件、修改指定分组下的键值、保存修改并清理对象。使用前需导入configparser模块。该方法简单高效，适用于处理标准INI格式的配置文件。

遗留Python包中的漏洞代码可通过域名劫持攻击Python包索引

FreeBuf_的博客

11-28

471

遗留Python包漏洞可致供应链攻击，域名劫持风险威胁PyPI生态。

Python抓取ZLibrary元数据实战指南

yiruo250的博客

11-29

555

本文介绍使用Python抓取ZLibrary电子书元数据的技术方案。首先说明准备工作，包括Python环境配置、网页结构分析和反爬策略。详细讲解两种抓取方法：静态页面使用requests+BeautifulSoup解析，动态内容通过Selenium模拟浏览器操作。提供数据存储示例（CSV/JSON格式）和清洗技巧，并介绍异步抓取、Scrapy框架等高级优化方案。特别强调法律合规性，包括遵守robots.txt、控制请求频率及版权注意事项。附完整代码示例链接，为电子书数据分析提供技术参考。

Java学习之旅第三季-27：模块系统（一）

摸鱼的老谭

11-29

937

Java模块系统自Java 9引入，通过module-info.java文件定义模块名称、依赖关系和导出包，实现依赖管理、JRE精简和访问控制。模块分为标准模块和非标准模块，前者由JCP管理，后者为JDK特有。创建模块化项目时，需在src/main/java下添加module-info.java文件，使用requires声明依赖、exports控制包可见性。模块命名建议采用反向域名格式，与包名保持一致但无强制要求。模块系统提升了代码组织性、安全性和开发效率。

python轮子：适配requests.request的aiohttp异步请求

云霄IT的博客

12-01

169

【代码】python轮子：适配requests.request的aiohttp异步请求。

茴香豆可以存储镜像文件吗

07-19

<think>嗯，用户现在明确询问茴香豆知识库是否支持存储镜像文件。结合之前的对话历史，用户是企业IT人员，正在评估知识库平台选型，特别关注多格式支持能力。用户提供的引用材料很有价值：引用[1]提到安装依赖时包含poppler-utils等文档处理工具，引用[2]显示茴香豆支持多模态版本，引用[5]则涉及模型文件管理。这些线索暗示系统具备处理二进制文件的基础能力，但需要验证具体实现。技术层面需要区分两个概念：1) 文件存储能力 2) 文件内容解析能力。茴香豆的架构设计显示：其核心是RAG检索系统，依赖文本向量化。镜像文件本质是二进制数据，系统可通过minio等对象存储组件保存文件元数据，但无法直接解析镜像内容——这点与PDF不同（PDF可通过poppler提取文本）。用户可能实际想问的是"能否像管理文档一样检索镜像内容"。答案是否定的，因为镜像缺乏可索引的文本特征。不过可以补充说明变通方案：将镜像说明文档与镜像文件关联存储，通过文档元数据实现间接检索。考虑到用户的技术背景，回复需要明确三点：存储可行性、检索局限性、替代方案。同时保持与之前推荐的Confluence方案对比（后者通过插件可实现镜像基础管理）。</think>根据技术文档分析，**茴香豆知识库原生不支持镜像文件（如 ISO/Docker 镜像）的存储和解析**，但可通过扩展架构实现关联管理。具体说明如下： --- ### 一、茴香豆原生能力限制 1. **支持格式明确范围** 官方文档[^2][^3] 明确列出支持格式： ```markdown pdf / word / markdown / excel / ppt / html / txt ``` **镜像文件未被包含**，系统无法直接解析其内容。 2. **技术实现聚焦文本处理** 依赖链显示其设计目标为**文本提取与向量化**： - 安装 `poppler-utils` 等工具处理 PDF/Word 文本[^1] - 通过 `BCEmbedding` 等库实现文本向量化[^5] - **无二进制文件解析模块**（如提取镜像元数据） --- ### 二、扩展存储方案（需自研集成）若需管理镜像文件，可通过混合架构实现： ```mermaid graph LR A[茴香豆知识库] -->|文本元数据关联| B(MinIO 对象存储) B --> C[Docker 镜像/ISO 文件] A -->|检索时调用| D[镜像元数据库] ``` **操作步骤**： 1. **存储层**：将镜像文件上传至 MinIO/S3 对象存储 2. **元数据层**：在茴香豆中创建 Markdown 文档，记录： - 镜像名称、版本、用途 - MinIO 文件路径（例：`s3://bucket/image.iso`） 3. **检索层**：用户搜索关键词时，返回关联文档和下载链接[^3] --- ### 三、典型应用场景示例 ```python # 在茴香豆知识库中添加镜像元数据（Markdown 示例） --- image_name: "Ubuntu-Server-22.04" description: "生产环境基础镜像" storage_path: "s3://company-images/ubuntu-22.04.iso" checksum: "sha256:9f86d08..." --- ``` --- ### 四、选型建议 | 需求 | 方案 | |---------------------|--------------------------| | 直接存储/解析镜像 | ❌ 不适用（需自建扩展架构） | | 关联镜像元数据管理 | ✅ 通过 Markdown 实现 | | 镜像内容语义检索 | ❌ 不支持（需定制开发） | > 注：若需完整镜像管理能力，建议结合 **Harbor（Docker 镜像库）** 或 **Nexus Repository** 使用，通过超链接在茴香豆中集成访问入口[^3]。 ---