一、主要内容总结
1. 研究背景与核心问题
大型语言模型(LLM)发展的核心挑战是性能与效率的平衡——高性能模型(如GPT-5-medium、Claude-4.1-opus)通常计算成本高、延迟高,而高效模型(如Qwen3系列、Gemini-2.5-flash)虽成本低,但能力有限。GPT-5虽通过测试时路由(将查询动态分配给高效模型或高容量模型)尝试解决该问题,但仅支持两类模型的简单分配,未形成统一的性能-效率权衡方案。
2. 核心方案:Avengers-Pro框架
Avengers-Pro是一种测试时路由框架,通过集成不同容量与效率的LLM,为所有性能-效率权衡场景提供统一解决方案,核心流程包含三步轻量级操作:
- 嵌入(Embedding):使用文本嵌入模型(Qwen3-embedding-8B)将输入查询编码为4096维语义向量;
- 聚类(Clustering):采用k-means算法(k=60)将查询按语义相似性分组,每个聚类代表一类语义连贯的查询类型;
- 评分与路由(Scoring & Routing):基于性能-效率评分(由权衡参数α控制),为每个聚类评估模型适用性。推理时,将查询映射到Top-p(p=4)个最近聚类,选择这些聚类中性能-效率评分总和最高的模型生成响应。
Avengers-Pro优化大模型性能与效率
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



