读书笔记(SRE:Google运维解密):第20章 数据中心内部的负载均衡系统

本文详细介绍了Google运维中的负载均衡策略,包括流速控制和跛脚鸭任务管理,以及子集划分和不同类型的轮询算法。在异常任务处理中,流速控制能自动避开过载后端,而跛脚鸭状态则允许任务平滑停止。子集划分限制了客户端与后端的连接数量,减少资源消耗。负载均衡算法涉及简单轮询、最闲轮询和加权轮询,每种都有其优缺点和适用场景。
  • 识别异常任务:流速控制和跛脚鸭任务
    (a)流速控制机制也是一种非常简单的负载均衡机制:如果某个后端任务过载了,请求处理开始变慢,客户端会自动避开这个后端,从而将任务分配给其他的后端。
    (b)跛脚鸭状态,后端任务正在监听端口,并且可以服务请求,但是已经明确要求客户端停止发送请求。

在Google的RPC框架实现中,不活跃的客户端(没有建立TCP连接的客户端)也会定期发送UDP健康检查包。这就使跛脚鸭状态可以相对较快地传递给所有的客户端—通常在一到两个RTT周期内—无论它们处于什么状态下。
 
允许任务处于这种半正常的跛脚鸭状态的好处就是让无缝停止任务变得更容易,处于停止过程中的任务不会给正在处理的请求返回一个错误值。能够无影响地停止一个活跃的后端任务可以让处理代码推送、设备维护活动,和机器故障问题导致的任务重启变得对用户透明。这个停止过程通常按照以下步骤进行:
(1)任务编排系统发送一个SIGTERM信号给该任务。
(2)后端任务进入跛脚鸭状态,同时请求它的所有客户端发送请求给其他后端任务。这通过SIGTERM信号处理程序中调用RPC实现中的API完成。
(3)任何在后端进入跛脚鸭状态时正在进行的请求(或者在进入状态之后,但是其他客户端收到通知之前)仍会继续进行。
(4)随着请求回复被发送回客户端,该后端任务的活跃请求逐渐降低为0。
(5)在配置的时间过后,该后端程序要么自己干净地退出,要么任务编排系统主动杀掉它。该时间应该被设置为一个足够大的值,以便一般的请求可以有足够的时间完成。每个服务的该数值都不同,一般来说取决于客户端的复杂程度,10s到150s是一个不错的选择。

 

  • 利用划分子集限制连接池大小在健康管理之外,负载均衡另外要考虑的一个因素就是子集划分:限制某个客户端任务需要连接的后端任务数量。
    (a)子集选择算法一:随机选择。一个最简单的子集选择算法是让所有客户端任务将后端列表随机排列一次,同时将其中的可解析/可服务状态的后端提取出来。一次性随机排列并顺序选取可以很好地处理重启和任务失败情况(在这些情况下连接
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值