21、高可用性网络服务的负载均衡与故障转移配置

饼干CSS

于 2025-09-05 16:21:09 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏： Linux系统管理实战精要文章标签：高可用性负载均衡 LVS

本文链接：https://blog.youkuaiyun.com/j2k3l4/article/details/151300191

Linux系统管理实战精要专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

高可用性网络服务的负载均衡与故障转移配置

高可用性对于网络服务至关重要，尤其是在处理大量并发连接和确保服务持续可用时。本文将介绍不同的负载均衡算法、LVS（Linux Virtual Server）的负载均衡方法，以及如何利用 Keepalived 实现故障转移和负载均衡。

1. 负载均衡算法

不同的服务场景需要不同的负载均衡算法，以下是几种常见的算法及其适用场景：
- 轮询（Round Robin） ：按顺序依次将请求分配到各个服务器。适用于各个服务器性能相近，且每个连接的资源消耗相对均衡的场景。
- 最少连接（Least Connection） ：跟踪每个服务器的活跃连接数，将新请求分配到连接数最少的服务器。对于使用长持久连接的服务，如在线游戏服务器，这种算法能避免某些服务器过载，实现更均衡的负载分配。
- 最短预期延迟（Shorted Expected Delay）和永不排队（Never Queue） ：考虑响应延迟，能提高服务质量。而轮询和最少连接算法则完全不考虑响应时间。

2. LVS 负载均衡方法

2.1 NAT 负载均衡配置

NAT 是 LVS 最实用的负载均衡方法，因为真实服务器无需公共可路由 IP 地址，也无需特殊配置。以下是配置步骤：
1. 创建虚拟服务器实例，监听 HTTP 请求：

root@virtual-server# ipvsadm --add-service --tcp-service 192.168.56.100:80

添加真实服务器，并指定使用 NAT 方法：

root@virtual-server# ipvsadm --add-server --tcp-service 192.168.56.100:80 --real-server 10.20.30.2:8000 --masquerading

验证虚拟服务器配置：

root@virtual-server# ipvsadm –list

配置完成后，虚拟服务器将接管客户端与真实服务器之间的通信。虽然理论上这会增加虚拟服务器的流量，但在实践中，Linux 网络性能良好，且数据包转发和端口/地址转换在内核空间完成，性能优于用户空间的负载均衡应用。

2.2 直接路由负载均衡配置

直接路由理论上性能最佳，但对真实服务器要求较高。配置步骤如下：
1. 创建虚拟服务器实例：

root@virtual-server# ipvsadm --add-service --tcp-service 10.20.30.1:8000

添加真实服务器，并使用 –gatewaying (-g) 选项：

root@virtual-server# ipvsadm --add-server --tcp-service 10.20.30.1:8000 --real-server 10.20.30.2 --gatewaying

此配置下，虚拟服务器收到请求后，会更改数据包的 MAC 地址并重新发送到以太网网络，真实服务器直接向客户端回复，无需增加虚拟服务器的负载。但所有真实服务器必须在同一广播网络段，且能响应与服务 IP 相同的虚拟 IP 数据包，通常需要将虚拟服务 IP 分配为别名。为避免地址冲突，除虚拟服务器外的所有节点必须忽略虚拟 IP 的 ARP 请求，可使用 arptables 工具实现：

root@real-server# arptables -A IN -d 10.20.30.1 -j DROP
root@real-server# arptables -A OUT -d 10.20.30.1 -j mangle --mangle-ip-s 10.20.30.2

由于这些要求，该方案在大多数网络中难以实现。

2.3 IP 隧道负载均衡配置

IP 隧道理论上允许真实服务器位于任何网络，但实际应用中存在一些困难。配置步骤如下：
1. 创建虚拟服务器实例：

root@virtual-server# ipvsadm --add-service --tcp-service 192.168.56.100:8000

添加真实服务器，并使用 –ipip (-i) 选项：

root@virtual-server# ipvsadm --add-server --tcp-service 192.168.56.100:8000 --real-server 10.20.30.2 --ipip

在真实服务器上设置 IPIP 隧道，并分配虚拟服务器 IP：

root@real-server# ip tunnel add ipip1 mode ipip local 10.20.30.2
root@real-server# ip link set dev ipip1 up
root@real-server# ip address add 192.168.56.100/32 dev ipip1

该方法要求真实服务器操作系统支持 IPIP 隧道，且在采取防源 IP 欺骗措施的网络中可能失效。

3. LVS 配置的保存和恢复

可以将当前 LVS 配置导出为可从标准输入加载的格式：

root@virtual-server# ipvsadm --save

将输出保存到文件，然后使用 –restore 选项恢复配置：

root@virtual-server# ipvsadm –save > lvs.conf
root@virtual-server# cat lvs.conf | ipvsadm --restore

但在实践中，使用 Keepalived 或其他用户空间守护进程自动化 LVS 配置更为方便。

4. 额外的 LVS 选项

4.1 连接持久性

默认情况下，LVS 将客户端连接均衡分配到所有服务器，不将客户端与特定服务器匹配。对于一些使用长持久和有状态连接的服务，如远程桌面连接，需要使用连接持久性功能。通过指定 –persistent 选项，并可选地指定持久化超时时间，可使 LVS 记住客户端到服务器的映射，将同一客户端的新连接发送到同一服务器：

ipvsadm --add-service --tcp-service 192.168.56.100:80 --persistent 600

4.2 连接状态同步

LVS 的连接状态同步守护进程可实现连接状态的单向同步，有主（master）和备份（backup）节点。使用 IP 多播将连接状态发送到对等节点，可指定用于同步消息的网络接口：

root@first-virtual-server# ipvsadm --start-daemon=master --mcast-interface=eth0
root@second-virtual-server# ipvsadm --start-daemon=backup --mcast-interface=eth0

但连接状态同步本身需要与故障转移机制结合使用，才能在主负载均衡节点故障时将虚拟 IP 转移到备份节点。

5. Keepalived 实现故障转移和负载均衡

Keepalived 是 Linux 上流行的 VRRP 实现，除了支持 VRRP 协议实现故障转移外，还提供了 LVS 配置前端，可通过配置文件同时实现故障转移和负载均衡。

5.1 安装 Keepalived

不同 Linux 发行版安装 Keepalived 的命令不同：
- Fedora、RHEL 及其社区衍生版（如 Rocky Linux）：

sudo dnf install keepalived

Debian、Ubuntu 等使用 APT 的发行版：

sudo apt-get install keepalived

5.2 VRRP 协议基础

VRRP 及其类似协议（如 HSRP 和 CARP）基于选举主节点并通过监听其存活包持续检查状态的思想，属于第一跳冗余协议（FHRPs）。初始时，每个节点都认为自己可能是主节点，发送包含 VRRP 实例唯一标识符和优先级值的存活包（VRRP 术语中称为广告），同时监听传入的 VRRP 广告包。如果节点收到优先级高于自己的包，则承担备份角色并停止发送存活包。优先级最高的节点成为主节点，并将虚拟地址分配给自己。主节点定期发送 VRRP 广告包，其他节点在收到这些包时保持备份状态。如果主节点停止发送 VRRP 包，则发起新的选举。

5.3 配置 VRRP

以下是一个简单的 VRRP 配置示例：

vrrp_instance LoadBalancers {
    state BACKUP
    interface eth1
    virtual_router_id 100
    priority 100
    advert_int 1
    nopreempt
    virtual_ipaddress {
        10.20.30.100/24
    }
}

将上述配置保存到 Keepalived 配置文件（通常为 /etc/keepalived/keepalived.conf）。配置文件可包含一个或多个 VRRP 实例，实例名称仅用于信息目的，需在配置文件中唯一。各选项含义如下：
- state ：定义路由器的初始状态，建议所有路由器都设置为 BACKUP，因为它们会自动选举活动路由器。
- interface ：指定 VRRP 广告包的源网络接口。
- virtual_router_id ：从协议角度定义 VRRP 实例，取值范围为 1 到 255，同一广播网络中不同 VRRP 实例需使用不同的 VRID。
- priority ：VRRP 路由器优先级，默认值为 100，可手动指定 1 到 254 之间的数值，值越高越有可能被选为活动（主）路由器。
- advert_int ：广告包传输间隔，默认值为 1 秒，大多数情况下无需更改。
- nopreempt ：禁用抢占功能，避免主节点故障恢复后导致额外的故障转移事件。
- virtual_ipaddress ：指定虚拟地址，最多可指定 20 个，用空格分隔。

5.4 验证 VRRP 状态

保存配置文件并启动 Keepalived 服务后，服务器将成为活动（主）节点并将虚拟地址分配到网络接口。可通过以下方法验证：
- 查看 IP 地址 ：

$ ip address show eth1

使用 tcpdump 捕获流量 ：

$ sudo tcpdump -i eth1

还可通过向 Keepalived 进程发送 POSIX 信号获取 VRRP 状态数据：
1. 查找 Keepalived 进程的 PID：

$ cat /run/keepalived/keepalived.pid

发送 SIGUSR1 信号生成状态文件：

$ sudo kill -USR1 <PID>

查看状态文件：

$ sudo cat /tmp/keepalived.data

发送 SIGUSR2 信号可请求统计文件：

$ sudo kill -USR2 $(cat /run/keepalived.pid)
$ sudo cat /tmp/keepalived.stats

通过合理选择负载均衡算法、使用 LVS 负载均衡方法和 Keepalived 实现故障转移，可提高网络服务的可用性和性能，确保服务在各种情况下持续稳定运行。

高可用性网络服务的负载均衡与故障转移配置

6. 负载均衡算法与 LVS 方法的综合应用分析

在实际应用中，需要根据不同的业务场景综合考虑负载均衡算法和 LVS 负载均衡方法。以下是几种常见场景的分析：

6.1 在线游戏服务

在线游戏服务通常使用长持久连接，资源消耗较高且对响应延迟敏感。对于这种场景，可采用最少连接算法进行负载均衡，以避免某些服务器过载。同时，考虑到网络性能和服务器配置，LVS 的 NAT 方法是一个不错的选择，因为它对真实服务器的要求较低，且能在内核空间完成数据包转发和地址转换，提供较好的性能。

6.2 高并发 Web 服务

高并发 Web 服务通常有大量短连接请求，对响应时间要求较高。轮询算法可以简单有效地将请求均匀分配到各个服务器。在 LVS 方法中，直接路由理论上性能最佳，但由于其对网络环境和服务器配置要求较高，在实际应用中可能不太容易实现。NAT 方法虽然会增加虚拟服务器的流量，但在 Linux 良好的网络性能支持下，仍然是一个可行的选择。

6.3 分布式存储服务

分布式存储服务需要处理大量的数据读写请求，对数据的一致性和可靠性要求较高。最短预期延迟和永不排队算法可以根据服务器的负载和响应时间动态分配请求，提高服务质量。IP 隧道方法可以使真实服务器位于不同的网络中，增加了系统的灵活性，但需要确保服务器操作系统支持 IPIP 隧道，并且网络环境允许直接向客户端发送回复。

7. 故障转移机制的深入探讨

故障转移机制是确保高可用性的关键，Keepalived 结合 VRRP 协议提供了一种有效的解决方案。但在实际应用中，还需要考虑以下几个方面：

7.1 优先级设置

VRRP 协议中，路由器的优先级决定了其成为主节点的可能性。在设置优先级时，需要根据服务器的性能、资源配置和重要性进行合理分配。例如，性能较高、资源充足的服务器可以设置较高的优先级，以确保在正常情况下成为主节点，提供更好的服务性能。

7.2 抢占功能

Keepalived 的 VRRP 实现中，默认情况下最高优先级节点会在恢复后抢占主节点角色。虽然这有助于保持主节点的可预测性，但可能会导致额外的故障转移事件，影响服务的稳定性。在对服务稳定性要求较高的场景中，可以禁用抢占功能，避免不必要的故障转移。

7.3 健康检查

除了 VRRP 协议的心跳检测机制外，还可以结合健康检查功能，实时监测服务器的运行状态。例如，通过定期发送 HTTP 请求或执行特定的脚本，检查服务器的服务是否正常。如果发现服务器出现故障，可以及时触发故障转移，将虚拟 IP 转移到备份节点。

8. 性能优化与监控

为了确保高可用性网络服务的性能和稳定性，需要进行性能优化和实时监控。

8.1 性能优化

内核参数调整 ：通过调整 Linux 内核的网络参数，如 TCP 缓冲区大小、最大连接数等，可以提高网络性能和负载均衡效率。
硬件升级 ：在必要时，可以考虑升级服务器的硬件配置，如增加 CPU、内存和网络带宽，以满足高并发请求的处理需求。

8.2 监控指标

连接数 ：监控服务器的连接数，了解服务器的负载情况，及时发现过载问题。
响应时间 ：监测服务的响应时间，确保服务能够及时响应用户请求。
带宽利用率 ：监控网络带宽的利用率，避免带宽瓶颈影响服务性能。

8.3 监控工具

可以使用各种监控工具，如 Nagios、Zabbix 等，实时收集和分析服务器的性能指标。这些工具可以提供可视化的界面，方便管理员及时发现和解决问题。

9. 总结与展望

通过本文的介绍，我们了解了不同的负载均衡算法、LVS 的负载均衡方法以及 Keepalived 实现故障转移和负载均衡的原理和配置方法。在实际应用中，需要根据具体的业务场景和需求，选择合适的负载均衡算法和 LVS 方法，并合理配置 Keepalived 实现高可用性。

随着网络技术的不断发展，未来的高可用性网络服务将面临更多的挑战和机遇。例如，随着物联网和云计算的普及，网络服务的规模和复杂性将不断增加，对负载均衡和故障转移机制的性能和可靠性提出了更高的要求。同时，人工智能和机器学习技术的应用也将为高可用性网络服务的优化和管理提供新的思路和方法。

总之，高可用性网络服务的实现需要综合考虑多个因素，不断优化和改进负载均衡和故障转移机制，以确保服务的持续稳定运行。

以下是一个简单的 mermaid 流程图，展示了 Keepalived 实现故障转移的基本流程：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A([开始]):::startend --> B(节点启动):::process
    B --> C{收到高优先级 VRRP 广告?}:::decision
    C -->|是| D(成为备份节点):::process
    C -->|否| E(成为主节点):::process
    E --> F(分配虚拟 IP):::process
    F --> G(定期发送 VRRP 广告):::process
    D --> H(监听 VRRP 广告):::process
    H --> I{主节点停止发送广告?}:::decision
    I -->|是| J(发起新选举):::process
    J --> C
    I -->|否| H

通过以上的介绍和分析，希望能够帮助读者更好地理解和应用高可用性网络服务的负载均衡和故障转移技术，提高网络服务的质量和可靠性。