22、高可用性与自动化配置管理全解析-优快云博客

本文链接：https://blog.youkuaiyun.com/j2k3l4/article/details/151300194

高可用性与自动化配置管理全解析

高可用性相关技术

在高可用性的技术领域中，有多个关键方面需要我们去深入了解，包括VRRP信息获取、Keepalived配置虚拟服务器、服务器健康跟踪以及应用层负载均衡等内容。

VRRP信息获取

虽然当前获取VRRP实例信息的方法有些繁琐，但我们仍能从相关数据文件中收集到大量有用信息。以下是一些数据示例：
| 项目 | 数值 |
| ---- | ---- |
| Sent | 112 |
| Became master | 1 |
| Released master | 0 |
| Packet Errors - Length | 0 |
| Packet Errors - TTL | 0 |
| Packet Errors - Invalid Type | 0 |
| Packet Errors - Advertisement Interval | 0 |
| Packet Errors - Address List | 0 |
| Authentication Errors - Invalid Type | 0 |
| Authentication Errors - Type Mismatch | 0 |
| Authentication Errors - Failure | 0 |
| Priority Zero - Received | 0 |
| Priority Zero - Sent | 0 |

Keepalived配置虚拟服务器

Keepalived不仅能创建和维护LVS配置，还具有诸多优势。与手动配置LVS相比，Keepalived在启动时更为便捷，因为它通常集成了服务管理功能（如systemd单元），而LVS作为内核组件，缺乏配置持久化机制。此外，Keepalived还能进行健康检查，并在服务器出现故障时重新配置LVS子系统。

以下是一个简单的负载均衡配置示例，采用加权轮询（Weighted Round Robin）算法，NAT作为负载均衡方法，包含两个权重相等的真实服务器：

global_defs {
    lvs_id WEB_SERVERS
}
virtual_server 192.168.56.1 80 {
    ! Weighted Round Robin
    lb_algo wrr
    lb_kind NAT
    protocol TCP
    ! Where to send requests if all servers fail
    sorry_server 192.168.56.250 80
    real_server 192.168.56.101 80 {
        weight 1
    }
    real_server 192.168.56.102 80 {
        weight 1
    }
}

将上述配置保存到 /etc/keepalived/keepalived.conf ，并使用 systemctl restart keepalived 重启守护进程后，可通过 sudo ipvsadm 验证是否成功创建LVS配置：

$ sudo systemctl restart keepalived
$ sudo ipvsadm
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port Scheduler Flags
    -> RemoteAddress:Port          Forward Weight ActiveConn InActConn
TCP  server:http wrr
    -> 192.168.56.101:http        Masq      1        0        0
    -> 192.168.56.102:http        Masq      1        0        0

服务器健康跟踪

LVS本身仅为负载均衡解决方案，不包含服务器健康监控组件。而在实际应用中，及时排除故障或处于维护状态的服务器至关重要，因为将用户请求导向不可用的服务器会违背高可用性配置的初衷。Keepalived具备监控功能，可检测并移除未通过健康检查的服务器。

健康检查需为每个真实服务器单独配置，不过在大多数实际场景中，所有服务器的健康检查设置应保持一致。以下是几种常见的健康检查类型：
- TCP和UDP连接检查 ：这是最简单但特异性最低的健康检查类型，分为UDP_CHECK和TCP_CHECK两种，分别适用于UDP和TCP协议。示例配置如下：

real_server 192.168.56.101 80 {
    weight 1
    TCP_CHECK {
        connect_timeout 3
        retry 3
        delay_before_retry 2
    }
}

启动Keepalived后，它将激活健康检查子系统并开始进行连接检查。若 192.168.56.101 的80端口没有运行的Web服务器，当检查失败三次（由 retry 选项定义）后，Keepalived将从LVS配置中移除该服务器。可通过 sudo journalctl -u keepalived 查看系统日志：

Keepalived_healthcheckers: Activating healthchecker for service 
[192.168.56.101]:tcp:80 for VS [192.168.56.1]:tcp:80
Keepalived: Startup complete
Keepalived_healthcheckers: TCP_CHECK on service 
[192.168.56.101]:tcp:80 failed.
Keepalived_healthcheckers: Removing service [192.168.56.101]:tcp:80 
from VS [192.168.56.1]:tcp:80

这种简单的TCP检查适用于任何基于TCP的服务，但服务器能响应TCP连接并不意味着其功能正常。
- Misc（任意脚本）检查 ：最通用的检查方法是MISC_CHECK，它依赖外部脚本进行检查。示例如下：

real_server 192.168.56.101 80 {
    MISC_CHECK {
        misc_path "/tmp/my_check.sh"
        misc_timeout 5
        user nobody
    }
}

使用这种检查方式，可监控任何类型的服务器，但缺点是需要在脚本中自行实现所有检查逻辑。
- HTTP和HTTPS检查 ：MISC_CHECK虽能提供全面控制，但在多数情况下过于复杂。作为特异性和灵活性的折中方案，可使用特定协议的检查，如HTTP_GET检查，它可向URL发送HTTP请求并检查响应的哈希值，其HTTPS版本为SSL_CHECK。

假设要计算一个静态页面的MD5哈希值，可使用 md5sum 命令：

$ cat index.html
<!DOCTYPE html>
<html>
    <body>
        <p>hello world</p>
    </body>
</html>
$ md5sum index.html
fecf605e44acaaab933e7b509dbde185  index.html

若要计算动态生成页面的预期哈希值，可使用Keepalived自带的 genhash 工具：

$ genhash --verbose --server 192.168.56.101 --port 80 --url /index.html

获取预期响应哈希值后，可配置HTTP_GET检查：

real_server 192.168.56.101 80 {
    weight 1
    HTTP_GET {
        url {
            path /index.html
            digest fecf605e44acaaab933e7b509dbde185
        }
        connect_timeout 3
        retry 3
        delay_before_retry 2
    }
}

由于普通用户可见页面内容可能随时变化，若使用哈希值检查，最好创建内容固定的特殊页面。

邮件通知

Keepalived还支持在状态发生变化时发送邮件通知，如VRRP主备切换、真实服务器不可用或恢复正常等情况。配置示例如下：

global_defs {
    notification_email {
        admin@example.com
        webmaster@example.com
    }
    notification_email_from keepalived@example.com
    smtp_server 203.0.113.100
    smtp_connect_timeout 30
}

但Keepalived不支持SMTP认证，若使用内置邮件通知机制，需将服务器配置为开放中继，并采取适当措施确保只有运行Keepalived的服务器能通过其发送邮件，如使用防火墙规则限制访问。

应用层负载均衡

LVS是一个灵活的负载均衡框架，由于在内核中实现，无需用户空间程序与内核之间的上下文切换和数据传输，因此具有高性能。同时，它在TCP或UDP协议层工作，与应用无关，可用于任何应用服务。

然而，LVS缺乏对应用协议的感知，这是其最大的弱点。它无法进行特定协议的优化，例如无法对可能返回相同回复的应用进行缓存。此外，现代应用层协议多为加密协议，LVS无法检查未由服务器发起或终止的连接负载。直接将用户连接转发到真实服务器还存在安全风险，如容易遭受TCP攻击。

为解决这些问题，可使用用户空间守护进程来实现服务协议，终止TCP连接，并将应用层协议请求转发到目标服务器。目前大多数应用为Web应用，因此许多解决方案针对HTTP和HTTPS，如HAProxy和Varnish，它们提供内存响应缓存、终止SSL连接、管理证书等功能，还可提供安全特性。

以下是一个简单的HAProxy配置示例：

frontend main
    bind *:80
    acl url_static path_beg -i /static /images /javascript /stylesheets
    acl url_static path_end -i .jpg .gif .png .css .js
    use_backend static if url_static
    default_backend app
backend static
    balance roundrobin
    server static 192.168.56.200:80 check
backend app
    balance roundrobin
    server srv1 192.168.56.101:5000 check
    server srv2 192.168.56.102:5000 check

HAProxy配置的核心是将前端（负载均衡实例）与后端（实际应用服务器集）进行映射。在此示例中，一个前端映射到两个后端：一个专门用于提供静态文件的服务器和两个应用服务器。

自动化配置管理之Chef

在当今技术驱动的世界中，大规模管理和维护基础设施变得越来越复杂。手动配置过程耗时、易出错且难以扩展，因此自动化成为解决这些问题的关键。Chef作为一种强大的配置管理系统，可简化基础设施的供应和管理。

基础设施自动化概述

基础设施自动化对于应对复杂和动态的环境挑战至关重要。通过自动化重复任务，管理员可减少人为错误、提高效率，并确保所有服务器配置一致。自动化还能实现快速部署、提高可扩展性并增强系统安全性。在Linux环境中，由于灵活性和定制性要求较高，基础设施自动化更为关键。

自动化在Linux中的好处包括：
1. 实现快速且一致的服务器供应，减少手动配置时间。
2. 确保遵循标准配置，减少不一致性，便于故障排除。
3. 根据需求快速添加或移除服务器，提高可扩展性。
4. 执行一致的安全策略，促进及时更新和补丁管理，增强安全性。

Chef简介

Chef采用基础设施即代码（Infrastructure as Code，IaC）方法，使用特定领域语言（DSL）编写代码来定义系统或服务器的期望状态。

Chef是一个开源的配置管理工具，允许管理员定义和自动化IaC。它采用声明式方法，管理员只需指定系统的期望状态，Chef会确保系统符合该状态。Chef提供跨平台解决方案，支持多种操作系统，包括Linux，基于客户端 - 服务器架构，使用Ruby DSL。

Chef的关键特性包括：
- 基础设施即代码 ：将基础设施配置视为代码，便于版本控制、测试和部署基础设施更改。
- 幂等操作 ：仅在必要时运行配置食谱，避免意外更改。
- 资源抽象 ：将系统资源（如文件、服务和包）抽象为可管理的组件，简化配置管理。
- 可测试性 ：支持测试驱动的基础设施开发，允许管理员在部署前验证和测试配置。

Chef服务器

Chef服务器是Chef基础设施的核心，它存储和管理配置数据、策略和食谱，为系统的期望状态提供权威来源。管理员可通过Web界面和API与Chef资源进行交互，管理节点、角色、环境和数据袋，并将食谱分发给节点。

Chef服务器使用推/拉机制管理节点配置：
- 推机制 ：Chef服务器主动将配置更新和食谱推送到节点。管理员对配置进行更改或定义新食谱后，将其上传到Chef服务器，服务器识别目标节点并推送更新。此过程可手动或自动触发。
- 拉机制 ：节点定期检查Chef服务器以获取更新。节点会定期请求并拉取配置，将当前状态与服务器上的期望状态进行比较，如有差异则拉取必要配置并更新自身。

Chef服务器的关键组件包括：
- 数据存储 ：使用数据库（如PostgreSQL）存储节点、食谱、角色、环境和数据袋的元数据和配置信息。
- Chef服务器API ：提供RESTful接口，允许管理员以编程方式查询、修改和删除资源。
- 用户和认证管理 ：管理用户账户和认证机制，提供基于角色的访问控制（RBAC），限制对敏感信息的访问。

Cookbooks是Chef的基本构建块，包含食谱、属性、模板和其他配置和管理基础设施特定组件所需的文件。Chef服务器作为存储和管理Cookbooks的仓库，管理员可通过服务器上传、版本控制和分发Cookbooks到节点。Cookbooks按逻辑分组，采用目录结构定义。

使用Chef，系统管理员可自动化诸如包安装、配置文件管理、服务管理等任务。其声明式特性便于扩展和重现，适用于管理复杂的基础设施。

Chef工作站

Chef工作站是管理员开发、测试和管理Chef基础设施的管理机器。管理员需在本地机器上安装Chef开发工具包（ChefDK），该工具包包含Cookbook开发和管理所需的所有工具、库和依赖项。

综上所述，高可用性技术和Chef自动化配置管理在现代基础设施管理中都起着至关重要的作用。通过合理运用这些技术，可提高系统的可靠性、可扩展性和管理效率。

高可用性与自动化配置管理全解析

Chef的工作流程与实际应用

了解了Chef的基本概念和组件后，我们来详细看看Chef在实际中的工作流程以及如何应用它进行自动化配置管理。

Chef的工作流程

Chef的工作流程可以用以下mermaid流程图表示：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A([开始]):::startend --> B(编写Cookbooks):::process
    B --> C(上传到Chef服务器):::process
    C --> D{节点获取配置}:::process
    D -->|拉机制| E(节点定期检查更新):::process
    D -->|推机制| F(Chef服务器推送更新):::process
    E --> G(节点对比状态):::process
    F --> G
    G -->|有差异| H(节点拉取配置并更新):::process
    G -->|无差异| I([结束]):::startend
    H --> I

整个流程可以概括为以下几个步骤：
1. 编写Cookbooks ：管理员根据系统的需求，使用Chef DSL编写Cookbooks，定义系统的期望状态。
2. 上传到Chef服务器 ：将编写好的Cookbooks上传到Chef服务器进行存储和管理。
3. 节点获取配置 ：节点通过推或拉机制从Chef服务器获取配置信息。
4. 对比状态 ：节点将当前状态与Chef服务器上的期望状态进行对比。
5. 更新配置 ：如果存在差异，节点拉取必要的配置并更新自身。

实际应用案例

假设我们有一个包含多台服务器的Web应用集群，需要使用Chef进行自动化配置管理。以下是具体的操作步骤：

创建Cookbooks ：
首先，我们需要创建一个名为 web_app 的Cookbook，用于配置Web应用服务器。在Chef工作站上执行以下命令：

chef generate cookbook web_app

这将在当前目录下创建一个 web_app 目录，包含Cookbook的基本结构。

编写Recipe ：
在 web_app 目录下的 recipes 文件夹中，创建一个名为 default.rb 的文件，用于定义Web应用服务器的配置。以下是一个简单的示例：

# 安装Apache服务器
package 'httpd' do
  action :install
end

# 启动并设置Apache服务开机自启
service 'httpd' do
  action [:enable, :start]
end

# 复制配置文件
cookbook_file '/var/www/html/index.html' do
  source 'index.html'
  mode '0644'
end

在上述代码中，我们使用Chef的资源抽象功能，定义了安装Apache服务器、启动服务和复制配置文件的操作。