服务失败后如何重试？

xwhking

于 2024-06-02 20:51:20 发布

阅读量652

点赞数 3

CC 4.0 BY-SA版权

分类专栏： ByteByteGo转载文章标签：运维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Go_ahead_forever/article/details/139397035

ByteByteGo转载专栏收录该内容

43 篇文章

订阅专栏

服务失败后如何重试？

在分布式系统和网络应用程序中，重试策略对于有效处理瞬时错误和网络不稳定性至关重要。

重试策略能让系统在发生故障时多次尝试操作，从而提高最终成功的可能性。

下图显示了 4 种常见的重试策略。

01 线性回退

线性回退是指在重试尝试之间等待一个逐渐增加的固定时间间隔。例如，如果初始重试间隔设置为 1 秒，则后续重试间隔可能为 2 秒、3 秒、4 秒，依此类推，每次重试后都会增加固定时间。

优点

易于实施和理解。提供可预测的重试模式。

缺点

在高负载或高并发环境下可能并不理想，因为它可能导致资源争用或 “重试风暴”，因为重试间隔是可预测的，并且仅呈线性增长。

02 线性抖动回退

线性抖动回退修改了线性回退策略，在重试间隔中引入了随机性。该策略仍线性增加延迟，但在每个间隔中添加了随机 “抖动”。例如，如果基本延迟为 3 秒，抖动可以是-1 到 1 秒之间的随机值，从而导致实际延迟为 2 秒、3 秒或 4 秒。

优点

随机性有助于在一段时间内分散重试尝试，减少跨实例同步重试的机会，这在分布式系统中尤其有用。

缺点

虽然这种策略比简单的线性后退要好，但仍可能导致同步重试的潜在问题，因为基本间隔仅线性增加。

03 指数回退

指数后退是指以指数方式增加重试之间的延迟。间隔时间可能从 1 秒开始，然后增加到 2 秒、4 秒、8 秒，依此类推，通常会达到最大延迟。这种方法在间隔重试方面比线性延迟更积极。

优点

大大减轻了系统负荷，降低了重试中发生碰撞或重叠的可能性，因此适用于高负荷环境。

缺点

在快速重试可能解决问题的情况下，这种方法可能会不必要地延迟问题的解决。

04 指数抖动回退

指数抖动回退结合了指数回退和随机性。每次重试后，回退间隔以指数形式增加，然后应用随机抖动。抖动可以是加法（在指数延迟上添加一个随机量）或乘法（将指数延迟乘以一个随机因子）。这种随机性有助于进一步防止普通指数退避中出现的同步问题。

优点

具有指数延迟的所有优点，由于引入了抖动，还能进一步减少重试碰撞。

缺点

随机性有时会导致超过必要的延迟时间，尤其是在抖动显著的情况下。

选择重试策略

重试策略的选择应基于以下因素：

系统负载和性能要求：指数（带或不带抖动）等更激进的重试策略可能更适合负载较重的系统。
错误类型：对于快速重试可能会成功的瞬时错误，采用不那么激进的策略可能就足够了。
网络条件和服务依赖性：在多个服务相互依赖的分布式系统中，指数抖动回退等更复杂的策略有助于平滑需求峰值，减少下游服务的负载。

每种策略都可以通过最大重试次数、最大回退限制和抖动程度等参数进行调整，以根据应用的具体要求和运行条件定制回退行为。

本文转自公众号 ByteByteGo，如有侵权，请联系，立即删除

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

xwhking 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。