为了避免出现数据丢失以及保证 SDDC 组件的正常运行,启动和关闭 VMware Cloud Foundation 环境中的组件应该遵循特定的顺序。比如,在关闭管理工作负载域之前,应该先关闭 VI 工作负载域,如果 VI 工作负载域集群中还运行了 vSphere Supervisor 解决方案(之前叫 vSphere with Tanzu/vSphere IaaS Control Plane),应该先关闭容器化工作负载以及管理组件后再执行 VI 工作负载域关闭工作流。如果是启动 VCF 环境,首先应该启动管理工作负载域组件,然后再启动 VI 工作负载域以及工作负载虚拟机。
注意,以下内容为个人学习整理,有关更多内容和细节请参考官方产品文档《Shutdown and Startup of VMware Cloud Foundation》。
一、关闭 VCF 环境#
由于当前 VCF 测试环境并不是一个完整的 VCF 环境,没有 VI 工作负载域,也并没有使用其他解决方案(如 DR 灾难恢复和 CMP 云管平台),所以下面有些不会列出具体的操作过程,只会大概分解并解释整个关闭 VCF 环境的过程。
(1) VI 工作负载域#
如果 VI 工作负载域中使用了 vSphere Supervisor 解决方案,请单独访问《Shut Down a Virtual Infrastructure Workload Domain with vSphere with Tanzu》了解关闭过程。注意,如果当前 VI 工作负载域的 NSX Manager 和 NSX Edge 集群被多个其他 VI 工作负载域共享,请先关闭其他 VI 工作负载域中的工作负载虚拟机,然后再关闭其他 VI 工作负载域,最后再执行当前 VI 工作负载域关闭工作流。注意,如果使用了 ELM 增强型链接模式,则登录其中任意一个 vCenter Server 即可访问所有 VI 工作负载域并执行此过程;如果未使用 ELM 增强型链接模式,则需要登录所有 VI 工作负载域的 vCenter Server 并执行此过程。
1)关闭 VI 域 VM#
登录 VI 域 vCenter Server,找到并关闭工作负载虚拟机。
2)关闭 Live Site Recovery#
可以尽晚关闭 Live Site Recovery 和 vSphere Replication,以便在发生灾难事件时保护管理虚拟机。如果使用了 VMware Live Site Recovery(之前叫 Site Recovery Manager)解决方案,关闭过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
3)关闭 vSphere Replication#
如果单独使用了 vSphere Replication 或搭配了 Live Site Recovery 解决方案,关闭过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
4)关闭 NSX Edge#
登录管理域 vCenter Server,找到 VI 域的 NSX Edge 虚拟机,右击“关闭客户机操作系统”,对其余 NSX Edge 节点重复执行该操作。关闭 VCF 环境 NSX SDN 网络与物理数据中心网络之间的南北向流量。
5)关闭 NSX Manager#
登录管理域 vCenter Server,找到 VI 域的 NSX Manager 虚拟机,右击“关闭客户机操作系统”,对其余 NSX Manager 节点重复执行该操作。
6)关闭 vCLS#
登录 VI 域 vCenter Server,导航到集群->配置->vSphere 集群服务->常规,点击“编辑 vCLS 模式”,修改为撤回模式,vCLS 虚拟机将被清理。
7)关闭 vSphere/vSAN#
登录 VI 域 vCenter Server,导航到 vSAN 集群,检查 Skyline 运行状况以及重新同步状态是否都正常,如果主机在 lockdown 模式下,请将主机的 root 账户添加到 Exception Users (异常用户) 列表,最后右键单击 vSAN 集群,然后选择“vSAN”->“关闭集群”。
8)关闭 vCenter Server#
登录管理域 vCenter Server,找到 VI 域的 vCenter Server 虚拟机,右击“关闭客户机操作系统”。
(2) 管理工作负载域#
关闭完所有 VI 工作负载域中的组件后,可以开始关闭管理工作负载域。注意,如果 VMware Cloud Foundation 使用了整合架构部署,请先关闭管理域中所有工作负载虚拟机以及其他虚拟机,然后再执行管理工作负载域关闭工作流。注意,由于 SDDC Manager 在执行整个操作期间要被关闭,因此建议提前通过 lookup_passwords 命令查看并保存管理域 vCenter Server 和 ESXi 主机的密码凭据,以备不时之需。注意,如果管理域中包含像 AD/NTP/DNS/DHCP 等基础服务虚拟机,不能使用下面的 vSphere/vSAN 集群关闭向导,请将这些虚拟机以及 vCenter Server 迁移到管理域集群的第一台 ESXi 主机上,然后执行手动关闭流程。
1)关闭管理域 VM#
登录管理域 vCenter Server,找到并关闭工作负载虚拟机。
2)关闭 Aira Automation#
如果使用了 VMware Aira Automation(之前叫 vRealize Automation)解决方案,关闭过程详见:《Shutdown and Startup of Private Cloud Automation for VMware Cloud Foundation》
3)关闭 Aira Operations#
如果使用了 VMware Aira Operations(之前叫 vRealize Operations)解决方案,关闭过程详见:《Shutdown and Startup of Intelligent Operations Management for VMware Cloud Foundation》
4)关闭 Workspace ONE Access#
以 vcfadmin@local 的身份登录到 Aira Suite Lifecycle,在环境页面找到 VMware Identity Manager,选择关闭电源。
5)关闭 Aira Suite Lifecycle#
登录管理域 vCenter Server,找到 Aira Suite Lifecycle 虚拟机,右击“关闭客户机操作系统”。
6)关闭 Live Site Recovery#
可以尽晚关闭 Live Site Recovery 和 vSphere Replication,以便在发生灾难事件时保护管理虚拟机。如果使用了 VMware Live Site Recovery(之前叫 Site Recovery Manager)解决方案,关闭过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
7)关闭 vSphere Replication#
如果单独使用了 vSphere Replication 或搭配了 Live Site Recovery 解决方案,关闭过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
8)关闭 Aira Operations for Logs#
可以尽晚关闭 VMware Aria Operations for Logs,以收集有助于对潜在问题进行故障排除的日志数据。如果使用了 VMware Aira Operations for Logs(之前叫 vRealize Log Insight)解决方案,关闭过程详见:《Shutdown and Startup of Intelligent Logging and Analytics for VMware Cloud Foundation》
9)关闭 NSX Edge#
登录管理域 vCenter Server,找到管理域的 NSX Edge 虚拟机,右击“关闭客户机操作系统”,对其余 NSX Edge 节点重复执行该操作。关闭 VCF 环境 NSX SDN 网络与物理数据中心网络之间的南北向流量。
10)关闭 NSX Manager#
登录管理域 vCenter Server,找到管理域的 NSX Manager 虚拟机,右击“关闭客户机操作系统”,对其余 NSX Manager 节点重复执行该操作(当前测试环境只有一个)。
11)关闭 SDDC Manager#
登录管理域 vCenter Server,找到管理域的 SDDC Manager 虚拟机,右击“关闭客户机操作系统”。
12)关闭 vSphere/vSAN#
登录管理域 vCenter Server,导航到 vSAN 集群,检查 Skyline 运行状况以及重新同步状态是否都正常。
如果主机在 lockdown 模式下,请将主机的 root 账户添加到 Exception Users (异常用户) 列表。
为了减少后面启动 VCF 环境管理域管理组件的时间,以及在发生意外情况下可以准确快速的找到 vCenter Server 虚拟机的位置,请将管理域 vCenter Server 虚拟机迁移到管理域默认管理集群中的第一个 ESXi 主机上。
最后右键单击 vSAN 集群,然后选择“vSAN”->“关闭集群”。
关闭集群预检查,请确定 vCenter Server 虚拟机所在的位置,点击下一步。
关闭 vSAN 集群将要自动依次执行的所有步骤,输入关闭的原因并点击关机。
vSphere/vSAN 集群关闭中。
完成 vSphere/vSAN 集群关闭后,管理域所有 ESXi 主机已自动关机。
二、启动 VCF 环境#
由于当前 VCF 测试环境并不是一个完整的 VCF 环境,没有 VI 工作负载域,也并没有使用其他解决方案(如 DR 灾难恢复和 CMP 云管平台),所以下面有些不会列出具体的操作过程,只会大概分解并解释整个启动 VCF 环境的过程。
(1) 管理工作负载域#
启动 VCF 环境之前,先开始启动管理工作负载域。注意,请在开始之前验证外部 AD/NTP/DNS/DHCP 等基础服务是否可用,如果管理域中包含像 AD/NTP/DNS/DHCP 等基础服务虚拟机,不能使用下面的 vSphere/vSAN 集群启动向导,如果关闭 VCF 环境的时候将这些虚拟机以及 vCenter Server 迁移到管理域集群的第一台 ESXi 主机,请执行手动启动流程。
1)启动 vSphere/vSAN#
第一步肯定是启动管理域 ESXi 主机的电源,实际环境中可以登录服务器的带外管理(如 BMC/iLO/iDRAC)来启动 ESXi 主机的电源。为了让 vCenter Server 虚拟机及相关服务更早的启动,所以先打开管理工作负载域中第一台 ESXi 主机的电源,然后再打开剩余 ESXi 主机的电源。
启动 ESXi 主机的电源后,此时管理域 vCenter Server 应该可以登录访问,确定所有 ESXi 主机都已上线。右键单击 vSAN 集群,然后选择“vSAN”->“重新启动集群”。
vSphere/vSAN 集群启动中。
导航到 vSAN 集群,检查 Skyline 运行状况以及重新同步状态是否都正常。
如果主机在 lockdown 模式下,并且在 VCF 环境关闭的时候已将主机的 root 账户添加到 Exception Users (异常用户) 列表,请在每个主机上移除它。
2)启动 SDDC Manager#
登录管理域 vCenter Server,找到管理域的 SDDC Manager 虚拟机,右击“打开电源”。
3)启动 NSX Manager#
登录管理域 vCenter Server,找到管理域的 NSX Manager 虚拟机,右击“打开电源”,对其余 NSX Manager 节点重复执行该操作(当前测试环境只有一个)。
以 admin 用户登录到管理域 NSX Manager VIP,导航到系统->配置->设备,在该页面检查并确定集群为“稳定”状态,并且所有 NSX Manager 节点都可用。
4)启动 NSX Edge#
登录管理域 vCenter Server,找到管理域的 NSX Edge 虚拟机,右击“打开电源”,对其余 NSX Edge 节点重复执行该操作。
5)启动 Aira Operations for Logs#
可以尽早启动 VMware Aria Operations for Logs,以收集有助于对潜在问题进行故障排除的日志数据。如果使用了 VMware Aira Operations for Logs(之前叫 vRealize Log Insight)解决方案,启动过程详见:《Shutdown and Startup of Intelligent Logging and Analytics for VMware Cloud Foundation》
6)启动 vSphere Replication#
如果单独使用了 vSphere Replication 或搭配了 Live Site Recovery 解决方案,启动过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
7)启动 Live Site Recovery#
可以尽早启动 Live Site Recovery 和 vSphere Replication,以便在发生灾难事件时保护管理虚拟机。如果使用了 VMware Live Site Recovery(之前叫 Site Recovery Manager)解决方案,启动过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
8)启动 Aira Suite Lifecycle#
登录管理域 vCenter Server,找到 Aira Suite Lifecycle 虚拟机,右击“打开电源”。
9)启动 Workspace ONE Access#
以 vcfadmin@local 的身份登录到 Aira Suite Lifecycle,在环境页面找到 VMware Identity Manager,选择启动电源。
10)启动 Aira Operations#
如果使用了 VMware Aira Operations(之前叫 vRealize Operations)解决方案,启动过程详见:《Shutdown and Startup of Intelligent Operations Management for VMware Cloud Foundation》
11)启动 Aira Automation#
如果使用了 VMware Aira Automation(之前叫 vRealize Automation)解决方案,启动过程详见:《Shutdown and Startup of Private Cloud Automation for VMware Cloud Foundation》
12)启动管理域 VM#
如果 VMware Cloud Foundation 使用了整合架构部署,请登录管理域 vCenter Server,找到并启动工作负载虚拟机。
(2) VI 工作负载域#
1)启动 vCenter Server#
登录管理域 vCenter Server,找到 VI 域的 vCenter Server 虚拟机,右击“打开电源”。
2)启动 vSphere/vSAN#
可以登录 VI 域服务器的带外管理(如 BMC/iLO/iDRAC)来启动 ESXi 主机的电源。登录 VI 域 vCenter Server,确定所有 ESXi 主机都上线,右键单击 vSAN 集群,然后选择“vSAN”->“重新启动集群”。导航到 vSAN 集群,检查 Skyline 运行状况以及重新同步状态是否都正常。如果主机在 lockdown 模式下,并且在 VCF 环境关闭的时候已将主机的 root 账户添加到 Exception Users (异常用户) 列表,请在每个主机上移除它。
3)启动 vCLS#
登录 VI 域 vCenter Server,导航到集群->配置->vSphere 集群服务->常规,点击“编辑 vCLS 模式”,修改为系统模式。
4)启动 NSX Manager#
登录管理域 vCenter Server,找到 VI 域的 NSX Manager 虚拟机,右击“打开电源”,对其余 NSX Manager 节点重复执行该操作。以 admin 用户登录到 VI 域 NSX Manager VIP,导航到系统->配置->设备,在该页面检查并确定集群为“稳定”状态,并且所有 NSX Manager 节点都可用。
5)启动 NSX Edge#
登录管理域 vCenter Server,找到 VI 域的 NSX Edge 虚拟机,右击“打开电源”,对其余 NSX Edge 节点重复执行该操作。
6)启动 vSphere Replication #
如果单独使用了 vSphere Replication 或搭配了 Live Site Recovery 解决方案,启动过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
7)启动 Live Site Recovery #
可以尽早启动 Live Site Recovery 和 vSphere Replication,以便在发生灾难事件时保护管理虚拟机。如果使用了 VMware Live Site Recovery(之前叫 Site Recovery Manager)解决方案,启动过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
8)启动 VI 域 VM#
登录 VI 域 vCenter Server,找到并启动工作负载虚拟机。
原创作者: juniormu 转载于: https://www.cnblogs.com/juniormu/p/18783550