文章目录
LLM大模型的向量数据库应用实战
1 大模型的局限性
大模型的4点局限性
- 缺乏领域特定信息:LLM仅基于公开数据预训练,缺乏领域特定信息、专有/专业数据等非公开数据
- 容易产生幻觉:LLM只能根据现有数据提供信息和答案,如果超出该范围,LLM回提供错误或捏造的信息
- 无法获取最新信息/知识:LLM训练成本十分高昂(训练ChatGPT-3的成本高达 140万美金),LLM无法及时更新知识库
- “不变”的预训练数据:LLM使用的预训练数据可能包含过时或者不正确的信息,并且这些数据无法更正或删除
大模型的4点局限性的改进实践方法
- 缺乏领域特定信息:
- 利用向量数据库建立知识库,拓展 LLM 的认知边界
- 微调(Fine-tuning)针对专业领域进行特定训练
- 容易产生幻觉:
- 使用提示词工程 Prompt Engineering 规定限制
- 无法获取最新信息/知识:
- 利用向量数据库为大模型建立记忆,及时更新
- “不变”的预训练数据:
- RLHF(Reinforcement Learning from Human Feedback)人工纠正再次微调
- 从知识库中删除无效信息
2 向量数据库使用场景以及改建大模型
用向量数据库/知识库改进大模型
向量数据库
- 向量是非结构化数据在高维空间中的表征
- Embedding Model 是将非结构化数据映射到高维空间的工具
- 使用合适的 Embedding Model,向量的近似度代表语义的近似度
- Embedding过程 </