SkyLB: A Locality-Aware Cross-Region Load Balancer for LLM Inference

论文主要内容与创新点总结

一、主要内容

本文针对多区域大规模语言模型(LLM)推理服务中资源利用率低、成本高的问题,提出了跨区域负载均衡器SkyLB。传统区域本地部署方式需为每个区域按峰值需求配置资源,导致资源浪费;而简单的集中式负载均衡又会引入高延迟。SkyLB通过以下设计实现高效跨区域负载均衡:

  1. 两层跨区域路由架构:每个区域部署本地负载均衡器,协同处理跨区域流量,避免集中式瓶颈。
  2. 前缀感知路由机制:通过一致性哈希(SkyLB-CH)和区域前缀树快照(SkyLB)维护键值缓存(KV-Cache)局部性,提升缓存命中率。
  3. 基于待处理请求的选择性推送:动态监控副本的待处理请求队列,避免过载,平衡负载。

实验表明,SkyLB相比现有方案吞吐量提升1.12-2.06倍,延迟降低1.74-6.30倍,总成本降低25%。

二、创新点
  1. 跨区域流量聚合与成本优化:首次提出利用多区域昼夜流量模式差异,通过跨区域负载均衡实现全局资源按需分配,减少峰值资源冗余。
  2. 双轨前缀感知路由
    • 基于用户ID的一致性哈希(SkyLB-CH),简单高效;
    • 区域前缀树快照(SkyLB),捕获跨用户前缀共享,提升缓存利用率。
cat <<EOF | kubectl apply -f - --- apiVersion: networking.istio.io/v1 kind: VirtualService metadata: name: helloworld-vs namespace: sample spec: #这里是and的关系 gateways: #这是默认配置,就算不配也有这个参数 #istio网格内部的流量 #这里是or的关系 - mesh - istio-system/cross-network-gateway hosts: #匹配请求的主机头 - "helloworld.sample.svc.cluster.local" http: - match: - port: 5000 route: - destination: host: "helloworld.sample.svc.cluster.local" subset: to-nanjing-local-subsets weight: 50 - destination: host: "eastwestgateway.remote.cluster.global" subset: to-beijing-eastwestgateway-subsets port: number: 15443 weight: 50 EOF cat <<EOF | kubectl apply -f - --- apiVersion: networking.istio.io/v1 kind: DestinationRule metadata: name: helloworld-dr namespace: sample spec: host: "helloworld.sample.svc.cluster.local" subsets: - name: to-nanjing-local-subsets labels: app: "helloworld" version: "v1" topology.istio.io/network: "nj-k8s-cluster-network-01" trafficPolicy: portLevelSettings: - port: number: 5000 tls: #本地服务访问不启用mTLS mode: DISABLE loadBalancer: simple: ROUND_ROBIN localityLbSetting: enabled: true failoverPriority: - region failover: - from: "china-beijing" to: "china-jiangsu" - name: to-beijing-eastwestgateway-subsets labels: app-gateway: "eastwestgateway" region: "china-beijing" topology.istio.io/network: "bj-k8s-cluster-network-01" trafficPolicy: portLevelSettings: - port: number: 5000 tls: mode: ISTIO_MUTUAL sni: helloworld.sample.svc.cluster.local loadBalancer: simple: ROUND_ROBIN localityLbSetting: enabled: true failoverPriority: - region failover: - from: "china-beijing" to: "china-jiangsu" #全局策略 trafficPolicy: #熔断机制 outlierDetection: consecutiveGatewayErrors: 3 consecutive5xxErrors: 3 interval: 10s baseEjectionTime: 3600s maxEjectionPercent: 100 EOF cat <<EOF | kubectl apply -f - --- apiVersion: networking.istio.io/v1 kind: ServiceEntry metadata: name: to-bj-eastwest-gateway-se namespace: sample spec: hosts: - "eastwestgateway.remote.cluster.global" ports: - number: 5000 name: https-5000 protocol: HTTPS resolution: STATIC location: MESH_EXTERNAL endpoints: - address: 192.168.110.230 ports: https-5000: 35443 #明确地域字段 locality: "china-beijing" labels: app-gateway: "eastwestgateway" region: "china-beijing" topology.istio.io/network: "bj-k8s-cluster-network-01" EOF 以上配置可以实现istio非扁平网络多控制面环境下的failover故障转移吗
06-23
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值