帮你整理好了,AI 网关的 8 个常见应用场景

之前我们分享过《AI 网关需要具备的 10 大基本能力》,属于供应者视角,今天我们从消费者视角介绍 AI 网关的 8 个常见应用场景。由于目前大部分企业部署大模型主要是内部自用,因此本文列举的应用场景大部分来自自用需求,对外提供服务,在需求颗粒度和程度上会更加依赖 AI 网关。

多模型服务

大模型不存在一家独大,企业往往会实施多模型策略。企业员工在前端选择大模型,可以随意切换后端的大模型服务,例如企业内部可以部署 DeepSeek、Qwen、自建等多个大模型,由员工自行选择,以获得更加丰富、可选的生成效果。企业越是多元化,对多模型服务的需求越强烈。

需求场景:

  • 多模态业务整合场景,企业需同时处理文本、图像、音频、3D 等多模态数据。研发、产品团队对推理能力强的模型需求多;客服、营销、平面设计等团队对图片大模型的场景需求多;工业设计、影视制作团队对音视频大模型的场景需求多。
  • 企业业务覆盖多个垂直领域,需针对不同行业特性调用专用模型。尤其是供应链端的企业往往服务多个行业,可能会涉及多款垂直行业的大模型需求。
  • 复杂任务协同场景,单一任务需多个模型分工协作以提升效果。多个大模型员工协同生成内容才能起到最佳效果。
  • 安全与效率双重要求场景,例如医疗机构的场景,处理患者数据使用专属私有模型分析,其他和患者无关的需求使用通用模型,避免敏感数据和非敏感数据在写入数据库混存。

应对方案: 阿里云云原生 API 网关提供的 AI 网关,支持基于模型名称做不同后端模型的切换,实现同一个接口对接多种大模型服务,这些大模型服务可以分别部署在不同的平台,例如百炼、PAI、IDC 自建等,即便不同模型隶属于不同的开发和运维团队,也不存在协作成本。

消费者鉴权

需求场景: 多租户模型服务分租场景:企业为不同部门或团队提供共享的大模型服务时,会通过 API Key 区分租户,确保数据隔离和权限管控。具体要求包括:

  • 为每个租户分配独立 API Key,控制其调用权限和资源配额度,例如部门 A 的调用资源配额是每天每人 20 次,部门 B 的调用资源配额是每天每 30 次。
  • 支持租户自定义模型参数(如温度系数、输出长度),但需通过网关校验权限。

企业内部权限分级管控:企业内部不同角色需差异化访问模型能力。具体要求包括:

  • 基于 RBAC(基于角色的访问控制)限制敏感功能(如模型微调、数据导出)。
  • 出于成本考虑,多模态大模型只供设计部门调用。
  • 记录操作日志并关联用户身份,满足内部审计需求。例如,金融企业限制风险评估模型仅限风控部门调用,防止普通员工滥用。

实现方案: 阿里云云原生 API 网关提供的 AI 网关,支持路由配置认证和消费者鉴权,实现对 API 访问的控制、安全性和策略管理,通过 API Key 的生成、分发、授权、开启授权、验证 API Key 的流程,确保只有授权的请求才能访问服务。

  • 身份可信:确保请求方为注册/授权用户或系统。
  • 风险拦截:防止恶意攻击、非法调用与资源滥用。
  • 合规保障:满足数据安全法规及企业审计要求。
  • 成本控制:基于鉴权实现精准计费与 API 配额管理。

模型自动切换

需求场景:

  • 模型自身特性引发的异常:大模型生成结果存在概率性波动,导致存在随机性输出不稳定的情况;发布新版本导致的流量有损。
  • 用户使用不规范导致的异常:使用者请求参数不符合 API 规范,导致连接超时或中断,或者输入包含恶意构造的提示词,触发模型安全防护机制,返回空结果或错误码。
  • 资源与性能限制:请求频次过高 ,触发限流策略,导致服务不可用,长请求占用过多内存,导致后续请求被阻塞,最终导致超时。
  • 依赖服务故障 :外部 API,例如 RAG 检索的数据库不可用,导致模型无法获取必要上下文。

实现方案: 阿里云云原生 API 网关提供的 AI 网关,支持当某个大模型服务请求失败后,Fallback 到指定的其他大模型服务,以保证服务的健壮性和连续性。

Token 级限流

需求场景: 虽然企业内部使用,不会频繁存在并发的需求,但通过设置限流能力,可以更经济的配置硬件资源。例如一家 10000 人的企业,不需要配置同时支持 10000 人上线的硬件资源,只需要配置 7000 人的硬件资源,超出部分进行限流,避免资源闲置。其他需求包括:

  • 提升资源管理:大模型对计算资源的消耗不可控,限流可以防止系统过载,确保所有用户都能获得稳定性能,尤其在高峰期。
  • 指定用户分层:可以基于 ConsumerId 或者 API Key 进行 Token 限流。
  • 防止恶意使用:通过限制 Token 数量来减少垃圾请求或攻击,以免受到资损。

应对方案: 阿里云云原生 API 网关提供的 AI 网关,提供了 ai-token-ratelimit 插件,实现了基于特定键值的 token 限流,键值来源可以是 URL 参数、HTTP 请求头、客户端 IP 地址、consumer 名称、cookie 中 key 名称。

内容安全和合规

需求场景: 企业内是严肃的工作场景,自建大模型需要对生成内容进行安全和合规保证,包括过滤掉有害或不适当的内容,检测和阻止包含敏感数据的请求,并对 AI 生成内容进行质量和合规性审核。

  • 金融行业敏感数据处理:审核用户输入的金融交易指令、投资咨询内容,防范欺诈、洗钱等违规行为。
    对模型生成的财务报告、风险评估结果进行合规性校验。
  • 医疗健康信息交互:电子病历生成内容,防止泄露患者隐私(如身份证号、诊断记录),确保 AI 生成的医疗建议符合相关法规。通过多模态大模型识别医疗影像中的敏感信息,并结合合规规则库进行自动化拦截。
  • 社交媒体与 UGC 内容管理:实时审核用户发布的图文、视频内容,拦截涉黄、暴恐、虚假信息。对 AI 生成的推荐内容(如短视频标题、评论)进行合规性检查。
  • 政务服务平台交互:审核公众提交的政务咨询内容,防止恶意攻击或敏感信息传播,确保 AI 生成的政策解读、办事指南符合相关法规。
  • 电商与直播平台风控:审核商品描述、直播弹幕内容,拦截虚假宣传、违禁品信息,对 AI 生成的营销文案进行广告法、合规性检查。

应对方案: 阿里云云原生 API 网关提供的 AI 网关,接入了阿里云内容安全,对面向大语言模型的输入指令和生成文字分别提供审核服务。包括:

  • 防止攻击:验证输入可以阻止恶意提示注入,防止模型生成有害内容。
  • 维护模型完整性:避免输入操纵模型,导致错误或偏见输出。
  • 用户安全:确保输出没有有害或误导性内容,保护用户免受不良影响。
  • 内容适度:过滤掉不适当的内容,如仇恨言论或不雅语言,特别是在公共应用中。
  • 法律合规:确保输出符合法律和伦理标准,尤其在医疗或金融领域。

语义缓存

需求场景: 大模型 API 服务定价分为每百万输入 tokens X 元(缓存命中)/ Y 元(缓存未命中),X 远低于 Y,以通义系列为例,X 仅为 Y 的 40%,通过在内存数据库中缓存大模型响应,并以网关插件的形式来改善推理的延迟和成本。在网关层自动缓存对应用户的历史对话,在后续对话中自动填充到上下文,从而实现大模型对上下文语义的理解。例如:

  • 高频重复性查询场景:客服系统、智能助手等场景中,用户常提出重复问题(如“如何重置密码”“退款流程”),通过缓存常见问题的回答,避免重复调用模型,降低调用成本。
  • 固定上下文多次调用场景:法律文件分析(如合同条款解读)、教育教材解析(如知识点问答)等场景,需对同一长文本多次提问。通过缓存上下文,避免重复传输和处理冗余数据,提升响应速度,降低调用成本。
  • 复杂计算结果复用场景:数据分析与生成场景(如财报摘要、科研报告生成),对相同数据集的多次分析结果缓存,避免重复计算。
  • RAG(检索增强生成)场景中:缓存知识库检索结果(如企业内部 FAQ),加速后续相似查询的响应。

应对方案: 阿里云云原生 API 网关提供的 AI 网关,提供了扩展点,可以将请求和响应的内容缓存到 Redis 中,并支持配置 Redis 服务信息、设置缓存时间。

联网搜索+获取检索网页的全文

需求场景: 联网搜索已经成为大模型的标配。如果不支持联网搜索,或者支持联网搜索,仅能获取网页标题、摘要、关键词而非全文,内容生成效果都会大打折扣。

应对方案: 阿里云云原生 API 网关提供的 AI 网关,通过以下增强,实现了联网搜索+获取检索网页的全文:

  • LLM 重写 Query:基于 LLM 识别用户意图,生成搜索命令,可以大幅提升搜索增强效果。
  • 关键词提炼:针对不同的引擎,需要生成不同的提示词,例如 Arxiv 里英文论文居多,关键词需要用英文。
  • 领域识别:以 Arxiv 举例,Arxiv 划分了计算机科学/物理学/数学/生物学等等不同学科下的细分领域,指定领域进行搜索,可以提升搜索准确度。
  • 长查询拆分:长查询可以拆分为多个短查询,提高搜索效率高质量数据:Google/Bing/Arxiv 搜索都只能输出文章摘要,而基于阿里云信息查询服务 IQS 对接 Quark 搜索,可以获取全文,可以提高 LLM 生成内容的质量典型应用场景效果展示。

大模型可观测

需求场景: 可观测常见于成本控制和稳定性场景。由于大模型应用的资源消耗比 Web 应用更加敏感和脆弱,因此成本控制对可观测的需求更为强烈,如果缺少完备的可观测能力,异常掉用可能会耗费几万甚至几十万的资损。

图源网络

除了 QPS、RT、错误率等传统观测指标,大模型的可观测还应具备:

  • 基于 consumer 的 token 消耗统计。
  • 基于模型的 token 消耗统计。
  • 限流指标: 每单位时间内有多少次请求因为限流被拦截,限流消费者统计(是哪些消费者在被限流)。
  • 缓存命中情况。
  • 安全统计:风险类型统计、风险消费者统计。

应对方案: 阿里云 API 网关支持查看网关监控数据、在云原生 API 网关开启日志投递、链路追踪、以及如何通过云原生 API 网关查看 REST API 和接口的监控数据。这些功能将帮助您更高效地管理和优化接口性能,同时提升整体服务质量。此外,通过 SLS 还可以汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据汇总,从而建设完整统一的可观测方案。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值