使用Upstash Ratelimit实现API请求和令牌使用的速率限制

最新推荐文章于 2025-12-20 09:26:15 发布

原创最新推荐文章于 2025-12-20 09:26:15 发布 · 365 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python

部署运行你感兴趣的模型镜像

在AI应用开发中，控制API请求频率和令牌使用量是非常重要的，可以有效降低成本并提升服务稳定性。在本篇文章中，我们将介绍如何使用Upstash的Ratelimit库，通过UpstashRatelimitHandler来实现基于请求次数或令牌数的速率限制。

技术背景介绍

Upstash Ratelimit的核心是通过将每个请求发送给Upstash Redis来管理。通过这种方式，我们能够方便地检查和更新用户剩余的请求或令牌额度，根据这些额度决定是否执行类似调用大语言模型(LLM)或查询向量存储等耗费资源的操作。

核心原理解析

Upstash Ratelimit主要通过以下步骤进行限流：

发送HTTP请求：每次调用limit方法时，都会向Upstash Redis发起HTTP请求。
额度检查和更新：检查用户的剩余请求或令牌额度，并实时进行更新。
条件执行：根据剩余额度决定是否执行复杂操作。

代码实现演示

环境配置

首先需要配置Upstash Redis的相关环境变量：

import os

# 设置Upstash Redis环境变量
os.environ["UPSTASH_REDIS_REST_URL"] = "https://your-redis-url"
os.environ["UPSTASH_REDIS_REST_TOKEN"] = "your-redis-token"

然后安装必要的库：

pip install upstash-ratelimit upstash-redis

按请求进行限流

假设我们希望用户每分钟最多调用10次链：

from langchain_community.callbacks import UpstashRatelimitError, UpstashRatelimitHandler
from langchain_core.runnables import RunnableLambda
from upstash_ratelimit import FixedWindow, Ratelimit
from upstash_redis import Redis

# 创建速率限制
ratelimit = Ratelimit(
    redis=Redis.from_env(),
    limiter=FixedWindow(max_requests=10, window=60),  # 10次请求每60秒
)

# 创建处理器
user_id = "user_id"  # 根据具体用户获取ID
handler = UpstashRatelimitHandler(identifier=user_id, request_ratelimit=ratelimit)

# 创建链
chain = RunnableLambda(str)

# 执行链并处理限流
try:
    result = chain.invoke("Hello world!", config={"callbacks": [handler]})
except UpstashRatelimitError:
    print("Handling ratelimit.", UpstashRatelimitError)

按令牌进行限流

下面的例子展示了如何使用令牌数量进行限流：

from langchain_community.callbacks import UpstashRatelimitError, UpstashRatelimitHandler
from langchain_core.runnables import RunnableLambda
from langchain_openai import ChatOpenAI
from upstash_ratelimit import FixedWindow, Ratelimit
from upstash_redis import Redis

# 创建速率限制
ratelimit = Ratelimit(
    redis=Redis.from_env(),
    limiter=FixedWindow(max_requests=500, window=60),  # 500个令牌每60秒
)

# 创建处理器
user_id = "user_id"  # 根据具体用户获取ID
handler = UpstashRatelimitHandler(identifier=user_id, token_ratelimit=ratelimit)

# 创建链
as_str = RunnableLambda(str)
model = ChatOpenAI()
chain = as_str | model

# 执行链并处理限流
try:
    result = chain.invoke("Hello world!", config={"callbacks": [handler]})
except UpstashRatelimitError:
    print("Handling ratelimit.", UpstashRatelimitError)