23、云应用与基础设施管理全解析

人间清醒863

于 2025-10-15 14:07:23 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：云迁移实战：从传统到云端文章标签：云应用基础设施管理 DevOps

本文链接：https://blog.youkuaiyun.com/gpu4optimizer/article/details/153366313

云迁移实战：从传统到云端专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

云应用与基础设施管理全解析

在当今数字化的时代，企业的云应用和基础设施管理变得至关重要。有效的管理不仅能确保业务的顺利运行，还能提高效率、降低成本并保障数据安全。下面我们将详细探讨云应用与基础设施管理的各个领域。

1. 应用领域

下面是应用领域的主要流程 mermaid 流程图：

graph LR
    A[生命周期管理] --> B[应用设计]
    B --> C[应用平台管理]
    C --> D[产品容量管理]
    D --> E[容量规划]

2. 基础设施领域

基础设施领域的主要流程 mermaid 流程图如下：

graph LR
    F[应用基础设施设计] --> G[应用基础设施管理]
    G --> H[平台级修补]
    H --> I[平台容量管理和优化]

3. 技术领域

技术领域的主要流程 mermaid 流程图：

graph LR
    J[平台工具] --> K[平台选择]
    K --> L[订阅分配]
    L --> M[一线平台支持]
    M --> N[重大事件响应]
    N --> O[平台设计]
    O --> P[DR 规划和执行]
    P --> Q[升级和补丁]
    Q --> R[角色和资源维护]
    R --> S[二线/三线平台支持]
    S --> T[OS 供应]
    T --> U[环境支持]
    U --> V[平台工程和交付]
    V --> W[网络和 DNS 管理]
    W --> X[配置管理]
    X --> Y[一线生产支持]

4. 数据领域

数据领域的主要流程 mermaid 流程图：

graph LR
    Z[数据库备份] --> AA[数据库恢复]
    AA --> AB[应用数据库供应]
    AB --> AC[应用数据库构建/更改/发布]
    AC --> AD[应用数据库设计]
    AD --> AE[数据库维护和调整]
    AE --> AF[应用数据库监控]

5. 安全领域

安全领域的主要流程 mermaid 流程图：

graph LR
    AG[安全控制实施和验证] --> AH[安全运营]
    AH --> AI[策略管理和监控]
    AI --> AJ[平台策略和标准]

6. 运营自动化

在完成了对各种能力、角色和职责的详细梳理后，我们将注意力转向尽可能自动化运营和安全方面的问题。从 IT 运营的角度来看，确保一切顺利运行并在适当的成本控制范围内可能具有挑战性。不过，有一些关键的基础方面可以帮助运营团队更好地履行职责。

6.1 合规监控和执行

由于与安全团队进行了广泛的预设计会议，我们深知监控和执行安全控制的重要性。虽然这些控制涵盖了广泛的类别，但可以通过集中方式来管理和理解它们。市场上有提供此功能的工具，但获取和实施成本可能超出采购或管理层的预算。幸运的是，Azure 提供了一些实用工具，让我们可以根据需要进行灵活或严格的控制：
- 管理组 ：在租户级别设置的组，可以将策略和设置级联到子组，子组可以包含一个或多个 Azure 订阅，嵌套级别上限为六级。
- Azure 策略 ：通过基于 JSON 的定义对象，策略允许我们定义单个策略和策略集（也称为计划），可以应用于管理组或订阅。它们足够灵活，可以监控行为（审计）或直接阻止行为（拒绝）。

这些工具与 EventGrid 订阅、活动日志警报和 Azure 自动化运行手册结合使用，可以成为合规工具包中的强大工具。在逻辑上组织不同的管理组时，可以将管理组与 Active Directory 中的组织单位进行类比。主租户下的特定嵌套组可用于限定权限和执行标准，同时也可以在嵌套组级别覆盖现有的租户级限制，提供了灵活性。

为了开始使用，我们可以使用 Azure CLI 创建公司的新主组：

az account management-group create -n gc-main --display-name Gamecorp

为主要应用程序团队创建子组的命令如下：

az account management-group create -n gc-cardstock --display-name Cardstock --parent-id /providers/Microsoft.Management/managementGroups/gc-main
az account management-group create -n gc-portal --display-name Portal --parent-id /providers/Microsoft.Management/managementGroups/gc-main
az account management-group create -n gc-gims --display-name GIMS --parent-id /providers/Microsoft.Management/managementGroups/gc-main

6.2 配置基线 Azure 策略

要开始结合管理组使用 Azure 策略，我们可以在 Azure 门户中探索策略区域。通过点击 Gamecorp 管理组，我们可以在管理组面板中看到策略菜单项。具体操作步骤如下：
1. 点击“Policies”以在管理组的上下文中打开 Azure 策略面板。
2. 点击“Definitions”开始浏览可用的（内置）策略和计划，会打开相应的面板。
3. 点击计划并点击“View definition”查看计划的内容，点击任何策略可以查看其定义。
4. 点击“Assign”将计划分配给 Gamecorp 管理组，由该主组管理的所有内容都将应用这些策略。会出现一个新对话框，允许我们设置一些值，我们可以输入新的分配名称和描述（可选），定价层会自动选择，确保我们能够比较结果并采取行动。必须设置的一项是“Scope”。
5. 点击蓝色省略号选择此策略的范围，如前所述，此分配将应用于 Gamecorp 管理组。选择该管理组，并确保订阅和资源组下拉列表为空，然后按下对话框底部的“Select”按钮继续。

通过以上对各个领域的详细介绍和运营自动化的实践，我们可以更全面地管理云应用和基础设施，提高效率、降低成本并保障安全。在实际应用中，我们可以根据公司的具体需求和情况，灵活运用这些方法和工具，不断优化管理流程。

云应用与基础设施管理全解析（下半部分）

7. 各领域协同与整体架构

前面我们分别探讨了应用、基础设施、技术、数据和安全这五个领域以及运营自动化的相关内容。在实际的云应用和基础设施管理中，这些领域并不是孤立存在的，而是相互关联、协同工作的。下面通过一个整体的 mermaid 流程图来展示它们之间的关系：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A(应用领域):::process --> B(基础设施领域):::process
    B --> C(技术领域):::process
    C --> D(数据领域):::process
    D --> E(安全领域):::process
    E --> A
    F(运营自动化):::process --> A
    F --> B
    F --> C
    F --> D
    F --> E

从这个流程图可以看出，应用领域的需求会驱动基础设施领域进行相应的设计和管理；基础设施的搭建和维护依赖于技术领域提供的工具和平台；数据领域为应用和基础设施提供数据支持和管理；安全领域则贯穿于整个流程，保障各个领域的安全运行。而运营自动化则是对各个领域的操作进行优化和简化，提高整体的管理效率。

8. 运营自动化的深入应用

运营自动化不仅仅局限于合规监控和执行，还可以在其他方面发挥重要作用。例如，在资源管理方面，可以通过自动化脚本定期检查资源的使用情况，根据预设的规则进行资源的分配和释放，避免资源的浪费。

以下是一个简单的 Python 脚本示例，用于检查 Azure 虚拟机的 CPU 使用率，并根据使用率进行相应的操作：

import azure.mgmt.compute
from azure.identity import DefaultAzureCredential
import time

# 初始化 Azure 认证
credential = DefaultAzureCredential()
compute_client = azure.mgmt.compute.ComputeManagementClient(credential, "your_subscription_id")

# 定义检查间隔（秒）
check_interval = 3600

while True:
    # 获取所有虚拟机
    vms = compute_client.virtual_machines.list_all()
    for vm in vms:
        # 这里省略了获取 CPU 使用率的具体代码，需要使用 Azure Monitor API
        cpu_usage = get_cpu_usage(vm.name)
        if cpu_usage > 80:
            # 如果 CPU 使用率超过 80%，可以进行扩容操作
            scale_up_vm(vm.name)
        elif cpu_usage < 20:
            # 如果 CPU 使用率低于 20%，可以进行缩容操作
            scale_down_vm(vm.name)

    time.sleep(check_interval)

在这个示例中，脚本会每隔一个小时检查一次所有虚拟机的 CPU 使用率，并根据使用率进行扩容或缩容操作。当然，实际应用中需要根据具体的业务需求和环境进行调整。