Portkey-AI网关缓存技术详解：如何优化LLM请求效率-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01163/article/details/148441614

Portkey-AI网关缓存技术详解：如何优化LLM请求效率

gateway 项目地址: https://gitcode.com/gh_mirrors/ga/gateway

引言：为什么需要LLM请求缓存？

在大语言模型(LLM)应用开发中，我们经常会遇到重复或相似的查询请求。每次请求都需要从模型获取响应，这不仅会导致响应延迟增加，还会产生不必要的计算成本。Portkey-AI网关提供的缓存功能正是为解决这一问题而设计。

Portkey缓存机制解析

Portkey提供两种智能缓存策略：

简单缓存(Simple Cache)
- 对完全相同的输入提示词直接返回缓存结果
- 适用于精确匹配场景
- 实现原理：基于请求内容的哈希值匹配
语义缓存(Semantic Cache)
- 对语义相似的输入提示词返回缓存结果
- 使用余弦相似度算法计算语义相似度
- 适用于自然语言理解场景

实战：如何启用Portkey缓存

1. 环境准备与SDK初始化

首先需要安装Portkey客户端SDK：

npm install portkey-ai

然后初始化Portkey实例：

const portkey = new Portkey({
  apiKey: '您的API密钥',
  virtualKey: '您的虚拟密钥'
});

2. 配置缓存策略

Portkey通过网关配置(Gateway Configs)来控制缓存行为：

// 简单缓存配置
const simpleCacheConfig = {
  cache: { mode: "simple" }
};

// 语义缓存配置
const semanticCacheConfig = {
  cache: { mode: "semantic" }
};

3. 发起带缓存的请求

简单缓存示例

const response = await portkey.chat.completions.create(
  {
    model: 'gpt-4',
    messages: [{ role: 'user', content: '世界七大奇迹是哪些？' }]
  },
  { config: JSON.stringify(simpleCacheConfig) }
);

语义缓存示例

const response = await portkey.chat.completions.create(
  {
    model: 'gpt-4',
    messages: [{ role: 'user', content: '人类的五种感官是什么？' }]
  },
  { config: JSON.stringify(semanticCacheConfig) }
);