企业业务连续性管理与认证全解析
一、业务连续性管理的重要性与相关标准
在当今复杂多变的商业环境中,企业面临着各种潜在的风险和危机,业务连续性管理(BCM)显得尤为重要。它不仅能利用现有的危机管理流程,确保领导层及时获取信息,还能让领导层深入了解并主导影响评估和利益相关者沟通响应工作,保障充分的执行领导和参与。
ASIS SPC.1 - 2009 组织弹性标准,即安全、准备和连续性管理系统,是一个用于行动计划和决策的管理框架,旨在预测、预防、准备和应对破坏性事件,通过为组织和客户创造安全可靠的环境来增强双方的信心。
二、企业认证的步骤
如果企业希望获得特定标准的认证,通常有两种方式:一是由授权认证机构进行第三方审查,以验证公司是否符合标准;二是在某些情况下,进行内部评估后自我声明符合标准也可满足企业目标。以下是认证的具体步骤:
1.
管理承诺
:BCM 是一个自上而下的过程,高层管理的承诺对于获取实施业务连续性管理系统(BCMS)所需的资源至关重要。通过初始的业务影响分析(BIA)和风险评估(RA),执行管理层能更全面地了解流程依赖关系和企业面临的风险。基于成本效益分析,管理层将确定开展 BCM 计划所需的预算和资源。
2.
选择标准
:选择适合企业业务连续性的标准,可借助企业内部的主题专家或外部顾问。他们会根据整体业务环境和企业文化提出建议。
3.
划定范围
:BCM 计划应覆盖整个企业。在完成 BIA/RA 阶段后,可以对恢复工作进行优先级排序。那些可以稍后执行且与关键流程无相互依赖关系的流程可排除在范围之外。确定范围内的资产、流程和应用程序,并将 BCM 程序的重点指向这些资产。认证时,此范围需与认证机构达成一致。
4.
符合法律法规要求
:许多企业实施 BCM 是因为行业监管机构或法律的强制要求。为满足这些要求而开展的一些流程,可能会因其违规罚款对公司财务的直接影响而被列入关键流程清单。将组织流程与法律法规规定相匹配,有助于识别为符合标准必须解决的差距。
5.
实施选定范围内的组件
:详细研究所考虑的标准,评估各个组件,并设计 BCM 计划,使范围内的流程符合标准各组件的规定。只有完全符合标准的每个组件,才能获得认证。
6.
自我评估符合情况
:在实施标准的所有组件后,企业可以对是否符合标准的所有组件进行评估。这种自我评估是独立审计的替代方案,因为独立审计成本较高。通过自我评估,可以确定认证准备情况,衡量项目进展,并保持管理层的承诺。
7.
任命认证机构
:当企业的 BCM 计划到位,自我评估显示企业已准备好符合选定标准时,需任命认证机构来审查该计划并为企业颁发标准认证。选择第三方认证机构应基于其在企业所属行业的经验。选定机构后,BCM 团队的负责成员需积极管理审计过程,提供审计人员所需的文档资源。良好的沟通和问题解决能使过程更加顺利有效。
8.
完成认证机构的审计
:认证机构进行初步审计,检查企业现有的 BCM 计划是否符合选定标准。在 BCM 计划接近完成时,必须完成标准规定的所有强制性文档。一些企业会聘请独立顾问(通常是中小企业专家)进行准备情况审计,以评估流程、识别差距并进行补救,确保符合标准。这种预审计能让管理层对认证过程的顺利进行和成功充满信心。
以下是认证步骤的 mermaid 流程图:
graph LR
A[管理承诺] --> B[选择标准]
B --> C[划定范围]
C --> D[符合法律法规要求]
D --> E[实施选定范围内的组件]
E --> F[自我评估符合情况]
F --> G[任命认证机构]
G --> H[完成认证机构的审计]
三、不同标准和框架的比较
不同的风险、安全和业务连续性标准和框架在很大程度上相似,但有时存在观念上的差异。例如,美国 DRI 标准规定 RA 应在 BIA 之前进行,而英国标准 BS 25999 和后来的 ISO 22301 建议先进行 BIA,在 BIA 结束前进行 RA。
企业在选择遵循的标准、采用的框架和指南时常常感到困惑。基本的 BCM 意识对于规划企业 BCMS 至关重要,同样,对于安全规划团队来说,了解安全的基本原理也很必要。企业的地理位置、业务类型和常见做法会影响这些标准和指南的选择。
例如,SOX 规定适用于美国,J - SOX 适用于日本,欧洲则遵循不同的版本。在这种情况下,企业应评估必须遵循的标准和法规。客户是否要求进行 SSAE 16 或供应商审计,获取第三方审计认证是否能为企业增加价值?如果安全相关问题最为重要,那么应考虑实施 ISO 27001 或提升企业的弹性。目前,ISO 22301 是全球广泛接受的全面业务连续性标准。
标准之间存在共性,聪明的合规经理通过遵循基本的文档要求,可以使企业为多项认证做好准备。然而,认证成本和维持认证的成本对管理层来说同样重要,这也是企业即使具备认证条件有时仍会推迟认证过程的原因。
四、业务影响分析的相关工具和数据
业务影响分析是 BCM 的重要组成部分,以下是一些相关的工具和数据:
(一)BIA 问卷
BIA 问卷包含一系列问题,用于了解企业在 IT 风险监测和管理、业务目标与 IT 组合的一致性、IT 采购政策计划以及用户需求分析等方面的情况。例如:
|序号|问题|
|----|----|
|1|企业内哪些增长领域和技术的发展速度超过了 IT 相关风险的监测和管理过程?|
|2|IT 风险是否在风险登记册中定义和记录?|
|3|企业是否有定期的风险评估系统,若有,风险是否在风险登记册中更新?|
|4|企业是否具备足够的 IT 技能和能力来充分评估 IT 风险?|
|5|企业的主要业务目标是什么,IT 组合是否与这些目标一致?|
|6|是否有 IT 采购政策?是否有 IT 的长期和短期计划?|
|7|用户需求分析是否是 IT 程序的一部分?|
(二)关键系统/应用调查
该调查用于收集有关部门使用的应用系统的信息,包括应用系统的运营影响、严重程度(按 0 - 4 级划分,4 表示最高严重程度)、恢复时间目标(RTO)和恢复点目标(RPO)等。例如,对于某个应用系统,需评估其在不同时间(如第 1 天、第 2 天等)对现金流、合规性差距、客户服务、员工离职、财务报告等方面的影响。
(三)业务依赖关系
业务依赖关系可分为内部和外部依赖:
-
内部依赖
:包括人员和技能、组织结构、流程、设施、IT 基础设施、信息和应用程序。
-
外部依赖
:涵盖业务客户、供应商、行业协会、其他组织、利益相关者、应急服务、运输和交付、电信、电力、天然气、共享设施、设备和 IT 资源以及供水等支持服务。
(四)业务影响分析的数据点
业务影响分析需要收集多个数据点,以全面了解业务功能及其可能受到的影响:
|数据点|描述|IT 依赖关系|
|----|----|----|
|业务功能或流程|对业务功能或流程的简短描述|描述用于此业务功能的主要 IT 系统|
|依赖关系|描述此功能的依赖关系,包括输入和输出点、为使此功能发生必须具备的条件、从内部或外部来源接收的输入,以及此业务功能中断对其他业务部分的影响及发生时间|描述影响或受此业务功能影响的 IT 系统,是否存在内部或外部 IT 依赖关系|
|资源依赖关系|此业务功能是否依赖于任何关键工作职能,若有,具体是哪些以及依赖程度;是否依赖于任何独特资源,若有,是什么以及依赖程度(如承包商、特殊设备等)|描述此业务功能所需的辅助/支持计算机/IT 系统|
|人员依赖关系|此功能是否依赖于专业技能、知识或专业知识;与此功能相关的关键职位或角色;如果这些角色的人员不可用会发生什么|描述使用此特定 IT 系统或 IT/业务功能所需的关键角色、职位、知识、专业知识、经验和认证|
|影响概况|此功能何时发生,是每小时、每天、每季度还是季节性发生;是否有特定的一天/一周/一年中的时间此功能更易受风险影响;如果此功能不发生,业务在何时更易受风险影响(如纳税时间、工资发放期、年终盘点等)|描述与此功能/流程及相关 IT 系统相关的关键时间线(如果有)|
|运营影响|如果此功能不发生,何时以及如何影响业务,影响是一次性的还是反复出现的;描述此功能不发生的运营影响|描述此业务功能不发生对 IT 的影响|
|财务影响|如果此功能不发生,对业务的财务影响是什么,何时会感受到或注意到财务影响,是一次性的还是反复出现的;描述此功能不发生的财务影响|描述此业务功能不发生的财务影响(如积压工作的影响)|
|积压工作|工作在何时会出现积压|描述积压工作如何影响 IT 系统和其他相关或支持系统的工作|
|恢复|支持此功能需要哪些类型的资源,需要多少资源以及在什么时间范围内(如电话、办公桌、计算机、打印机等)|恢复与此业务功能相关的 IT 系统需要哪些资源、技能和知识|
|恢复时间|此业务功能中断后恢复所需的最短时间;此业务功能不可用的最长时间|恢复、恢复、更换或重新配置与此业务功能相关的 IT 系统需要多长时间|
|服务水平协议|是否有与此业务功能相关的服务水平协议,这些 SLA 的要求和指标是什么,此业务功能中断将如何影响 SLA|此业务功能中断或不可用将如何影响 IT 服务水平,外部 SLA 如何影响 IT 系统|
|技术|支持此功能需要哪些硬件、软件、应用程序或其他技术组件;如果其中一些组件不可用会发生什么,影响如何,业务功能将受到多大影响|支持/维护此业务功能需要哪些 IT 资产|
|桌面、笔记本电脑、工作站|此业务功能是否需要使用“用户”计算机设备|所需计算机设备的配置数据是什么|
|服务器、网络、互联网|此业务功能是否需要使用后端计算机设备,是否需要连接到网络,是否需要访问或使用互联网或其他通信|所需服务器和基础设施设备的配置数据是什么|
|变通方法|是否有已开发和测试的手动变通程序,这些程序是否能在 IT 或系统故障时使业务功能继续执行,这些功能在手动或变通模式下可以运行多长时间;如果没有开发程序,开发此类程序是否可行|是否有与此业务功能相关的 IT 变通方法,如果有,是什么以及如何实施|
|远程工作|此业务功能是否可以从其他业务地点或员工在家或其他异地位置远程执行|从 IT 角度看,此业务功能是否可以远程执行,如果可以,需要什么来实现远程访问或远程执行此业务功能的能力|
|工作负载转移|是否可以将此业务功能转移到可能不受中断影响的其他业务单元,如果可以,需要哪些流程和程序来实现该功能|如果发生严重中断,是否有其他 IT 系统或资源可以承担负载|
|业务/数据记录|与此功能相关的业务记录存储或存档在哪里,是否目前有备份,如果有,如何备份、备份频率和备份位置|备份如何存储以及存储在哪里,根据提供的数据,当前的备份策略是否基于风险和影响是最优的|
|报告|此业务功能是否有法律或监管,报告要求,如果有,此业务功能中断对报告要求的影响是什么,是否有报告变通方法或可以开发和实施|如果关键业务功能或系统被禁用,是否有其他方式生成、存储或报告报告数据|
|业务中断经验|此业务功能是否曾被中断过,如果是,中断情况和结果是什么,从该事件中学到了什么可以纳入此规划工作|IT 是否曾经历过此业务功能的中断,如果是,中断的性质和持续时间是什么,如何处理以及从该事件中学到了什么|
|竞争影响|如果此业务功能被中断,对公司的竞争影响是什么,影响何时发生,何时可能失去客户或供应商| |
|其他问题|在讨论此特定业务功能时可能相关的其他问题|与此特定业务功能相关的其他 IT 问题是否应包括或讨论|
(五)灾难原因
常见的灾难原因包括洪水(10%)、其他(10%)、爆炸(7%)、硬件错误(8%)、火灾(6%)、电源浪涌(5%)、地震(5%)、网络中断(2%)、飓风(6%)、风暴(12%)、停电(27%)和人为错误(2%)等。
(六)供应商评估问题
与供应商沟通时,可以询问以下问题,并期望得到相应的高质量答案,同时可以提出可能的后续问题:
|您的问题|您应期望的答案|可能的后续问题|
|----|----|----|
|您如何处理计划的范围界定,以及这如何影响您为我公司提供的产品/服务的可恢复性?|我们进行了业务影响分析(BIA),使我们的内部业务运营与每个客户的产品和服务相匹配。对于我们为贵公司提供的产品/服务,我们正在进行风险缓解和恢复规划。|就您的准备工作范围而言,您是否涵盖了可恢复性的所有方面,即您的设施、人员、技术、供应商以及设备/资源?|
|请描述您恢复为我公司提供产品/服务的业务方面的策略。|答案将因情况而异,但回复应描述关键业务和技术流程的恢复方式和地点,以及供应链风险管理活动。|在发生破坏性事件后,这些能力何时可用,以及达到何种性能水平?|
|您如何验证您的业务连续性策略按设计工作?|我们每年对业务连续性策略进行演练(测试),并让负责响应和恢复工作的人员参与。我们设定演练目标、成功标准,并将结果与预定目标进行比较。|您的演练范围是什么,例如主要工作地点的丧失、技术的丧失等?|
|管理层如何参与审查和改进您的业务连续性计划?|我们设立了一个指导委员会,每季度开会,为范围界定和目标提供意见,并对我们的业务连续性管理系统/计划提供反馈。|我们的客户经理是否参与这个指导委员会,或者他/她是否也会收到计划绩效报告?|
|您如何处理改进机会,以确保您的组织能够最好地满足我公司的需求?|我们跟踪纠正和预防措施,并将其列在清单中,由我们的业务连续性团队每月审查和重新排序,由指导委员会每季度审查。|纠正和预防措施的来源是什么(演练、审计、业务影响分析、风险评估、管理审查)?|
(七)影响类型和表格
影响类型包括:
-
收入损失
:销售商品或服务所获得的收入减少。
-
额外费用
:临时人员配备、加班、设备和服务等方面的费用。
-
法规和法律
:罚款、处罚、合规问题、合同义务和财务负债。
-
客户服务
:服务水平的终止或降低(内部或外部),人工客服与自动响应的差异。
-
商誉
:公众形象、股东关系和市场份额。
同时,还提供了一个影响表格,展示了外部、环境、运营、技术和恐怖主义等不同方面对人员、法律和监管等的影响,例如经济衰退、洪水、激烈竞争、网络攻击、炸弹爆炸等可能导致的各种后果。
(八)关键功能分析和恢复
对于关键功能,需要分析其潜在影响、中断可能性、恢复时间框架以及资源需求:
-
潜在影响
:如果该功能未执行,对组织可能产生的影响。
-
中断可能性
:该功能中断的可能性。
-
恢复时间框架
:恢复该功能所需的时间。
-
资源需求
:包括人员(数量、技能、资格和替代来源)、数据/系统(备份和恢复过程、所需的人员和设备)、设施(潜在的搬迁、在家工作选项)、通信(联系员工、客户和供应商)、设备(关键设备的恢复或更换、替代来源、互惠协议)和用品(关键用品需求、应急包中的供应)。
(九)各种联系人列表
包括公用事业公司、当地应急服务和其他联系人(如银行、保险、地方当局)的联系信息,以便在紧急情况下能够及时沟通和协调。
(十)业务连续性管理过程
业务连续性管理过程包括以下步骤:
1.
识别和评估
:进行业务影响评估(BIA)和威胁与风险评估(TRA)。
2.
制定政策
:建立业务连续性政策。
3.
制定策略
:开发恢复策略。
4.
制定计划
:制定危机管理计划(CMP)、过程连续性计划(PCP)和资源恢复计划(RRP)。
5.
测试和改进
:进行 BCM 测试,评估测试控制的有效性,进行补救和改进。
以下是业务连续性管理过程的 mermaid 流程图:
graph LR
A[识别和评估] --> B[制定政策]
B --> C[制定策略]
C --> D[制定计划]
D --> E[测试和改进]
A1[BIA] --> A
A2[TRA] --> A
D1[CMP] --> D
D2[PCP] --> D
D3[RRP] --> D
E1[测试控制有效性] --> E
E2[补救和改进] --> E
(十一)常见的误解
企业在业务连续性管理方面存在一些常见的误解,例如认为每年测试的业务连续性计划在危机中一定有效,仅依靠备份就能恢复运营,没有时间开展业务连续性活动,仅依靠无线通信与员工、客户和供应链沟通,认为重大损失的可能性极小且依靠保险即可应对,以及认为在家工作就能应对灾难等。
(十二)故障模式和影响分析
故障模式和影响分析用于识别潜在的故障模式、其影响、可能的原因、当前的过程控制以及推荐的行动。例如,对于自动取款机的现金分配功能,可能存在不分配现金、分配过多现金、分配现金时间过长等故障模式,其影响包括客户不满、银行资金损失等,原因可能是账单粘连、面额放置错误、计算机网络流量过大等。通过分析,可以确定当前的控制措施和需要采取的行动。
(十三)风险识别
风险识别可以使用示例模板,将风险分为外部和内部风险,包括财务、战略、运营、危害、内部过程、信息通信技术(ICT)、人力资本和系统等类别,并对每种风险进行描述。
(十四)业务恢复计划模拟演练清单
该清单用于评估业务恢复计划的可行性和有效性,包括计划是否得到业务功能所有者的批准、是否有文档化的描述、范围和目标、是否指定了最大可容忍的 RTO 和恢复模式下的服务水平、是否至少每年进行模拟演练、纠正计划是否完成和关闭、演练是否达到管理层设定的 RTO、恢复人员是否有合理的信心认为计划可行、对计划的所有更改是否得到过程所有者的批准以及所有测试结果是否有记录等。
(十五)变更管理的重要性
变更管理对业务连续性管理至关重要,需要记录系统受影响情况、变更请求的描述、变更请求日期、为实现变更而进行的工作、完成日期、批准日期和投入使用日期等信息。
(十六)损害评估表
损害评估表用于记录资产的名称、位置、残值、损害程度以及修复或更换成本等信息,以便在发生灾难时对损失进行评估和管理。
(十七)风险识别过程
风险识别过程的输入包括风险管理计划、项目规划输出、风险类别和历史信息,通过文档审查、信息收集技术、检查表、信息分析和缓解技术等工具和技术,输出风险、触发因素以及作为其他过程的输入。
(十八)业务连续性计划(BCP)充分性清单
该清单包含一系列问题,用于评估 BCP 的充分性,包括是否有明确的、文档化的和正式批准的 BCP 政策、是否分配了 BCP 的责任并确保资源充足、是否完成了业务影响分析、是否定义了关键业务功能和数据保护与恢复策略、是否建立了预定的备用站点、BCP 是否得到高级管理层的批准、是否每年进行 BCP 测试、客户是否能在紧急情况或中断后继续访问其资产、员工是否了解计划并及时更新、是否验证了关键第三方服务提供商的恢复能力以及 BCP 意识是否纳入新员工入职培训等。
(十九)应对紧急情况的计划
企业应制定应对紧急情况的计划,包括以下活动:
1.
任命 BCM 团队
:确保有专门的团队负责业务连续性管理。
2.
识别资源
:确定员工和其他资源,如原材料、供应商、分包商服务或物流。
3.
建立备用劳动力和服务提供商
:定义并建立备用的劳动力和/或服务提供商,以应对紧急情况。
4.
情景规划
:制定可能导致产品/服务需求增加或减少的情景计划,例如大规模集会限制、卫生用品需求、电信或运输基础设施中断的影响。
5.
财务影响评估
:使用多情景分析确定事件对企业财务的潜在影响,并观察对不同产品/服务的影响。
6.
制定应急通信计划
:包括关键联系人、通信链、升级级别以及跟踪恢复状态的流程,并定期修订。
7.
寻找应急解决方案
:了解紧急情况的安排和可持续解决方案,以控制事件。
8.
沟通 BCP 计划
:将 BCP 计划传达给企业内的所有地点。
9.
实施和演练
:实施并安排演练以测试 BCP 计划,并在发生变化时进行修订。
(二十)分配资源保护员工和客户
在紧急情况下,企业需要分配资源保护员工和客户,包括:
1.
提供应急物资
:在所有业务地点提供必要的应急物资,如安全设备、手部卫生产品和纸巾。
2.
支持通信和技术
:确保提供通信和信息技术基础设施,以支持员工与远程地点进行通信和远程办公。
3.
提供医疗设施
:确保在危机时刻为员工提供医疗设施。
4.
传播 BCM 意识
:通过公关团队开发和传播涵盖紧急情况基础知识(如安全程序、疏散、流感症状和传播方式)的计划和材料,提高员工的意识。
5.
优化危机通信
:完善危机通信方法,以应对员工的恐惧和焦虑、谣言和错误信息,并相应地规划通信。
6.
确保通信清晰准确
:确保通信清晰、简洁和准确。
7.
解释应急程序
:向员工解释应急准备计划和响应程序,以便他们能够遵循。
8.
提供急救和医疗援助
:为受伤员工提供急救和医疗援助。
9.
建立通信渠道
:开发如热线、专用网站和建筑呼叫列表等通信渠道,用于紧急情况下的通信。
10.
识别社区资源
:确定国内和国际的社区资源,以获取及时准确的紧急信息和应对措施(如专业安全设备、疫苗和抗病毒药物)。
(二十一)与外部组织协调
企业还需要与外部组织协调,包括:
1.
与保险公司和医疗机构合作
:与保险公司、健康计划和主要当地医疗机构合作,分享紧急计划,了解他们的能力和计划。
2.
与当地当局合作
:与当地当局、救护车服务、警察等合作。
3.
与公共卫生机构沟通
:与当地或省级公共卫生机构和/或应急响应人员沟通,了解企业可为社区提供的资产和/或服务。
4.
与其他办公室分享计划
:与其他办公室分享紧急计划,以分享设施停电的最佳实践,进行有序疏散和/或应急操作的协调努力。
(二十二)社交媒体危机监测
在危机期间,监测社交媒体至关重要。以下是预防、减轻和补救社交媒体公关危机的最佳实践:
1.
获得管理层授权
:社交媒体活动需得到执行管理层的授权和验证。
2.
保持沟通透明
:在与利益相关者的沟通中保持透明,说明组织的行动及其原因。
3.
积极与影响者对话
:与有影响力的人进行积极的对话。
4.
记录沟通情况
:记录危机期间的所有沟通参与情况。
5.
解决信息冲突
:解决相互矛盾的信息,确保危机通信与营销通信不冲突。
6.
保持通信一致
:确保所有危机通信保持一致。
7.
建立通信框架
:建立危机通信框架,设定升级程序,确定危机通信的类型和发言人。
(二十三)业务恢复站点选项评估
企业在选择业务恢复站点时,有多种选项可供选择,各有优缺点:
|恢复选项|描述|优点|缺点|数据交付方法|最小恢复时间支持|最大消息长度|
|----|----|----|----|----|----|----|
|内部冷站点|具有预安装环境基础设施但无服务器基础设施或活动通信线路的高架地板设施。危机时,基础设施将通过与硬件供应商的预先安排的“快速发货”协议提供。|提供有保证的空间,推迟恢复硬件的购买。|恢复需要大量时间,依赖第三方提供设备和配置通信线路,需要有效的资产管理以确保应用程序的准确恢复。|所有|5 - 20 天|无限制|
|外部冷站点|具有预安装环境基础设施但无服务器基础设施或活动通信线路的高架地板设施。基础设施将使用与硬件供应商的预先安排的“快速发货”协议提供。|可以作为服务购买合同,无需额外的资本支出。外部冷站点供应商通常有附近的通信线路可供使用,并且在进行全面恢复方面有经验。|恢复需要大量时间,依赖第三方提供设备和配置通信线路,需要有效的资产管理以确保应用程序的准确恢复。|所有|5 - 20 天|无限制|
|内部热站点|具有预放置的服务器、计算机电信和环境基础设施的设施(均处于备用模式)。|保证可用性,并在组织控制下进行无限制的测试。|需要额外的数据中心和硬件资本支出,增加了环境的复杂性,影响持续的支持和运营,可能需要在备用站点增加额外的人员。|磁带备份、磁盘复制、数据复制|17 小时、7 小时、0 - 2 小时|无限制|
|外部热站点|第三方设施,具有预放置的服务器、计算机电信和环境基础设施(均处于备用模式)。|可以作为服务购买,无需额外的资本支出。多个恢复地点提供更高的保护。|无保证的可用性,使用有限。|磁带备份、磁盘复制、数据复制|24 - 72 小时、7 - 36 小时、0 - 24 小时|30 天|
|内部温站点|具有完整环境基础设施、有限服务器基础设施和通信线路的高架地板设施。|提供有保证的空间,避免购买硬件。|需要在地板空间、基础设施和通信线路上进行投资,依赖第三方硬件的运输。|所有|5 - 20 小时|无限制|
(二十四)比较表 - ERM、BSC、TPA
企业风险管理(ERM)、业务服务连续性和第三方评估在业务影响分析(BIA)方面有不同的重点和作用:
| |企业风险管理(ERM)|业务服务连续性|第三方评估|
|----|----|----|----|
|BIA 重点|强调运营风险 - 识别风险和差距分析|识别关键流程、上下游依赖关系,并根据时间关键性判断严重程度|盘点为关键功能提供服务的关键第三方服务提供商|
|目的|以业务流程为重点,旨在为事件升级进行规划|估计资源需求,制定业务恢复策略|检查服务水平协议(SLAs)中是否有审计条款,安排访问第三方或进行电话会议以讨论其业务连续性安排,通过访问安装或在某些情况下获取 SSAE 16 报告来获得对第三方供应商连续性的信心|
|其他作用|运营风险缓解,整合法规和标准|业务恢复策略,测试和提高意识| |
(二十五)运营连续性/弹性的组成部分
运营连续性和弹性包括建筑、设备、技术、第三方供应商、人力资源和其他因素。确保这些组成部分的稳定和可靠对于业务的持续运营至关重要。
(二十六)企业高可用性
实现企业的高可用性需要进行业务影响分析,考虑停机成本、RTO、RPO 和 SLA 等因素,结合高可用性系统的能力以及预算和增长计划,以确保关键业务流程的持续运行。
(二十七)BCM 套件
BCM 套件是用于恢复目的的应急包,包含关键文件、记录和设备,如 BCM 计划副本(包括关键联系人详细信息)、保险政策、计算机备份磁带/磁盘、财务记录、备用钥匙、手电筒和电池等。
(二十八)供应商分析问卷
通过向供应商询问一系列问题,可以评估其业务连续性管理能力,包括是否有 BCM 认证、是否有业务连续性管理系统、是否进行了风险评估、风险倡议是否涵盖分支机构、是否有明确的 BCM 策略、紧急响应人员是谁、BCMS 是否随业务环境变化而更新、是否有 BCM 演练策略和计划、演练结果是否记录、计划是否根据演练经验改进、高级管理层和运营高管是否接受过 BCM 培训、员工是否定期接受 BCM 程序培训、是否有 IT 灾难恢复计划、关键数据是否备份并异地存储、重要文件和记录是否扫描并异地存储、是否识别了关键供应商和服务提供商并准备了联系列表、是否确定了与员工在中断期间的通信方式和危机通信计划以及是否与供应商保持良好的公关关系以确保持续的服务水平等。
(二十九)一些业务影响分析考虑因素
业务影响分析需要考虑技术、数据积压、桌面/笔记本电脑/服务器、SLAs、供应商依赖关系、人员依赖关系、财务、法律和声誉影响、业务功能或流程、依赖关系和重要记录等因素。
(三十)行动和费用日志
行动和费用日志用于记录恢复过程中的决策、行动和产生的费用,包括日期/时间、决策/行动内容、执行者和费用金额等信息。
(三十一)BCM/DR 清单
BCM/DR 清单涵盖规划、风险评估和 BIA、通信和持续改进四个方面:
规划
- 确认企业高管的参与、赞助和支持。
- 确保 BC/DR 有足够的资金并纳入预算。
- 组建代表所有职能领域的团队,负责制定和维护 BC/DR 计划。
- 设立团队领导和候补人员,并明确每个人的角色。
- 创建包含关键联系信息的团队列表,并定期更新。
- 制定全面的计划,包括业务连续性和灾难恢复(业务连续性以业务运营为中心,灾难恢复以数据和系统为中心)。
- 定义明确的决策层次结构,以防止在最坏情况下出现延误。
- 确定员工安全、疏散、远程访问和通信的应急方案。
- 整理第三方服务水平协议(SLAs),作为全面参考。
- 确保计划包含网络犯罪或网络攻击的场景。
- 保持文档和分发列表的更新,并确保从多个位置均可访问。
风险评估和 BIA
- 识别对企业至关重要的流程、系统和服务,并对其进行优先级排序,评估中断带来的成本。
- 评估当前系统的数据备份和存储情况。
- 确定恢复时间和可容忍的停机时间。
- 通过评估威胁(如火灾、洪水、飓风、网络攻击等)识别组织的弱点和漏洞。
- 进行风险评估,确定可能干扰企业提供关键产品或服务能力的情况(包括对员工、财产、运营和声誉的风险)。
- 评估供应商/供应商在中断期间的响应或交付准备情况,确保他们有 BC/DR 计划。
- 了解供应商/供应商中断对企业流程的影响。
- 将 BIA 和风险评估的结果作为基础,为每种情况制定确保业务连续性和灾难恢复的计划。
通信
- 制定内部和外部危机通信计划,包括网站通信和社交媒体。
- 创建在危机中应联系的关键人员的内部列表,并定期更新。
- 确保危机通信团队了解决策层次结构,并制定访问决策者的计划。
- 列出需要通信的受众(员工、合作伙伴、供应商/供应商、客户、当局)。
- 确定危机期间的主要发言人及候补人员。
- 为关键场景准备脚本化的通信内容,并定期更新。
持续改进
- 定期安排灾难/中断场景的测试。
- 将测试与正常业务运营相结合(例如,在服务器维护时测试故障转移过程)。
- 将参与关键流程的供应商/供应商纳入测试过程,并确认他们定期进行测试。
- 对更易受影响的流程和系统进行频繁审计。
- 识别规划和程序中的缺陷,每次测试或审计后进行学习和改进。
- 随着流程和技术的变化不断发展计划。
- 通过定期沟通(见通信部分)培训团队并提高组织对 BC/DR 计划的认识。
- 采用不同的方法,如演练、桌面演练、功能演练和全面演练,来培训和评估计划。
- 评估资源的响应能力,根据需要确定额外的资源。
- 咨询当地和联邦机构,获取计划指导。
- 根据需要添加冗余和备份,以支持应急计划。
- 确保新流程和项目在实施前包含业务连续性计划。
- 将 BC/DR 纳入年度预算,以保证持续的投资和支持。
- 保持灵活性,使计划随组织的发展而演变。
(三十二)COBIT 启动的治理周期
COBIT 启动的治理周期涉及业务需求驱动 IT 资源的投资,通过 IT 流程交付企业信息,以满足业务和治理要求。IT 目标直接映射到业务目标,34 个 COBIT 框架流程用于交付和运行信息及应用程序,需要基础设施和人员的支持。企业可以利用信息标准,以平衡计分卡为指导,实现业务目标和 IT 目标的对齐。
(三十三)恢复时间目标和恢复点目标的权衡
在灾难恢复中,恢复时间目标(RTO)和恢复点目标(RPO)之间存在权衡。例如,可能在几秒钟内恢复运行,但会丢失一天的数据;或者不丢失数据,但需要一周时间才能恢复。企业需要根据自身的灾难恢复需求,在 RTO 和 RPO 之间找到平衡。
(三十四)事件处理清单
事件处理清单提供了在威胁和事件发生时的应对步骤和注意事项:
威胁响应
- 确定事件管理团队成员,包括事件经理和候补人员。
- 确定业务和信息技术恢复团队领导和候补人员。
- 更新所有关键的内部和外部联系人列表,包括家庭地址、家庭电话、手机、寻呼机、黑莓、电子邮件地址等信息。
- 建立会议桥,向所有事件管理团队成员提供会议桥号码和密码。
- 为员工建立语音信箱,以便他们监控状态更新。
- 如果是第三方业务连续性和灾难恢复服务提供商的订阅者,确定是否应将其置于警戒状态。
- 确保监控服务供应商(如报警公司)有最新的联系信息。
- 制定员工点名程序。
- 如果合适,向员工提供威胁响应程序(如炸弹威胁、疏散)。
- 创建备份磁带并异地运送。
- 确定一个位于预期影响区域之外的危机指挥中心。
- 加满应急发电机的燃料,并安排额外的燃料供应。
- 获取带备用电池的电池供电收音机。
事件检测和初步评估
- 遵循公司的应急响应程序。
- 如果可以安全进行,进行初步损害评估。如果人员处于危险中,不得进行任何恢复活动。
- 通知事件经理并提供详细报告。
激活事件管理团队
事件经理将确定是否应激活事件管理团队,如果需要:
1. 通知事件管理团队成员,提供事件描述,并要求他们在危机指挥中心集合或通过电话会议参与。
2. 激活危机指挥中心。
评估灾难影响
确定影响的严重程度是否需要实施恢复计划,确定恢复目标,包括优先级、恢复策略、行动计划和任务分配。
激活恢复计划
- 通知恢复团队领导和成员。
- 向恢复团队领导和候补人员简要介绍优先级、策略、行动计划、任务分配以及报告和通信程序。
- 如果是第三方业务连续性和灾难恢复服务提供商的订阅者,宣布灾难状态。
实施支持程序
事件管理团队支持人员将根据事件经理的指示,为所有受影响的业务部门提供恢复支持。
审计
- 就恢复工作中要实施的标准操作程序的更改提供咨询和建议。
- 确保在恢复工作期间维持财务安全和控制政策、反欺诈政策和信息安全标准。
- 按要求向事件管理团队提供报告和建议。
- 根据需要为其他业务部门提供额外资源。
企业通信
- 建立媒体简报中心。
- 协调所有媒体通信。
- 审查和批准所有关于事件的声明。
- 制定内部和外部通信。
- 与外部供应商协调与恢复相关的广告。
- 指示员工将所有媒体咨询转至企业通信部门。
健康与安全
- 确保员工的健康和安全。
- 确保应对火灾、泄漏和/或医疗紧急情况的响应活动符合监管指南。
- 根据需要通知监管机构事件情况。
- 在适当情况下,寻求供应商和机构的协助以支持相关活动。
设施管理
- 进行详细的损害评估。
- 进行打捞和修复活动。
- 如果必要,获取替代办公空间。
- 通知租户事件情况,并定期提供受影响办公空间的状况更新。
财务
- 确保有资金用于恢复。
- 确保所有恢复支出得到妥善记录。
- 设立恢复成本中心。
- 估计事件对公司财务报表的影响。
- 为恢复人员在替代运营地点提供餐饮服务。
人力资源
- 统计所有人员。
- 协助公共当局处理伤亡情况(如识别受害者、通知家属等)。
- 监控受伤人员的状况和位置。
- 与企业通信部门协调员工通信。
- 协调恢复工作的额外或临时人员配备。
- 根据需要提供咨询服务。
- 执行公司人员政策,适用于响应和恢复工作。
- 提交工伤赔偿申请。
- 协助员工处理与事件相关的福利管理。
- 按要求完成并提交健康、安全和环境(HSE)报告。
保险
- 与保险经纪人协调,准备和提交所有保险索赔。
- 记录损失证明。
- 提交索赔并监控付款情况。
- 建立 debris 管理计划。
IT
- 进行计算机系统和电信损害评估。
- 激活替代运营地点(用于系统恢复)。
- 恢复计算机系统和网络环境。
- 获取并安装替代桌面计算机设备。
- 重新建立与外部资源(分支机构、供应商)的数据网络连接。
- 实施所有电话响应计划(重新路由关键电话号码)。
- 安排所有替代站点的电话安装。
- 确保所有系统安全设备和程序到位。
法律
- 管理所有必要的监管通知。
- 为响应和恢复操作提供法律咨询。
- 在实施之前,审查和批准因事件而获得的新合同。
办公用品和服务
- 恢复邮件和运输服务。
- 将所有邮件和包裹接收重新定向到替代运营地点。
采购
- 管理所有与事件相关的采购。
- 为受影响的业务部门获取办公用品、表格和设备。
- 使用指定的成本中心实施任何必要的短期财务跟踪控制。
记录管理
- 与信息技术部门协调,确保记录管理系统的恢复。
- 与业务部门协调,检索所有异地备份记录。
- 领导记录回收和重建工作。
安全
- 协调受影响设施和所有替代运营地点的现场安全。
- 控制对受影响设施的访问。
- 监控从设施中移除的设备和记录。
运输
- 根据需要在响应和恢复活动期间提供当地运输。
- 为前往远程恢复地点的员工提供旅行安排和住宿。
跟踪事件状态和恢复进度
定期与恢复团队进行汇报会议,监控进度并确定问题区域,重新分配和/或提供资源。
人员通知指南
- 如果联系上人员,询问“我可以和(个人)通话吗?”,然后提供以下信息:问题的简要描述、危机指挥中心的位置、危机指挥中心的电话号码、任何立即需要采取的行动、告知人员不要就情况发表公开声明、告知人员不要给其他员工打电话(以避免在灾难发生时过早通知员工家属)。
- 如果人员不可用,询问“我在哪里可以联系到(个人)?”如果在工作以外的地点,获取电话号码并打电话,提供上述信息;如果个人在工作,表明将在工作地点联系该个人(不要与接听电话的人讨论灾难情况),立即通知事件经理。
- 如果无人接听,记录尝试联系的时间,定期再次拨打直到联系上。
- 如果联系信息无效(如号码错误、电话已停机等),如果人员已搬家,尝试获取新的电话号码并联系该个人,通知事件经理信息错误。
综上所述,企业要实现业务的连续性和应对各种潜在风险,需要全面考虑上述各个方面,制定完善的计划和策略,并通过有效的管理和执行来确保在危机发生时能够迅速恢复运营,减少损失。同时,持续的监测、评估和改进也是保持企业弹性和竞争力的关键。
五、业务连续性管理的重要性总结
业务连续性管理对于企业而言,是在复杂多变的商业环境中保障生存与发展的关键。它贯穿于企业运营的各个环节,从风险的识别与评估,到应对策略的制定和执行,再到持续的监测和改进,每一个步骤都紧密相连,不可或缺。
通过实施有效的 BCM,企业能够在面对各种突发情况时,迅速做出反应,减少业务中断的时间和损失,确保关键业务功能的持续运行。这不仅有助于维护企业的声誉和客户信任,还能保障企业的财务稳定,避免因业务中断而导致的收入损失、额外费用支出以及法律风险。
同时,BCM 也有助于企业提升自身的竞争力。在当今市场竞争激烈的环境下,能够快速恢复运营的企业更有可能在危机中脱颖而出,赢得客户和合作伙伴的青睐。此外,遵循相关的标准和法规,进行业务连续性管理认证,也能为企业在市场中树立良好的形象,增强市场竞争力。
(一)风险管理的核心地位
风险管理是 BCM 的核心。通过全面的风险评估,企业能够识别出可能影响业务连续性的各种潜在威胁,包括自然灾害、人为错误、技术故障、供应链中断等。针对这些风险,企业可以制定相应的应对策略,如风险规避、风险减轻、风险转移或风险接受。
在风险评估过程中,业务影响分析(BIA)起着至关重要的作用。BIA 能够帮助企业确定关键业务功能和流程,评估业务中断对企业的影响程度,从而为制定恢复策略提供依据。例如,通过分析不同业务功能的恢复时间目标(RTO)和恢复点目标(RPO),企业可以合理安排资源,确保在最短的时间内恢复最重要的业务功能。
(二)人员和沟通的关键作用
人员是企业业务连续性的重要保障。在危机发生时,员工的反应和行动直接影响着企业的恢复能力。因此,企业需要对员工进行培训和教育,提高他们的危机意识和应对能力。同时,明确员工在危机中的职责和角色,确保各项工作能够有序进行。
沟通也是 BCM 中不可或缺的环节。在危机期间,及时、准确的沟通能够帮助企业协调各方资源,避免信息混乱和误解。企业需要建立完善的沟通机制,包括内部沟通和外部沟通。内部沟通要确保员工了解危机情况和应对措施,外部沟通要及时向客户、合作伙伴和监管机构通报企业的状况,以维护良好的关系。
(三)技术和基础设施的支持
技术和基础设施是企业业务连续性的基础。企业需要确保其 IT 系统、网络和通信设施的可靠性和可用性,以支持关键业务功能的运行。例如,采用冗余设计、备份和恢复技术、灾难恢复站点等措施,能够提高系统的抗灾能力,减少数据丢失和业务中断的风险。
此外,企业还需要关注新兴技术的发展,如云计算、大数据、人工智能等,这些技术可以为企业的业务连续性管理提供新的解决方案和支持。例如,云计算可以提供灵活的资源调配和备份服务,大数据可以帮助企业更好地分析风险和制定应对策略,人工智能可以实现自动化的应急响应和恢复过程。
(四)持续改进的重要性
业务连续性管理是一个持续的过程,企业需要不断地对其进行评估和改进。通过定期的演练和测试,企业可以发现计划中的不足之处,及时进行调整和优化。同时,关注行业的最新动态和最佳实践,借鉴其他企业的经验教训,也能够帮助企业不断提升自身的业务连续性管理水平。
企业还需要建立有效的反馈机制,收集员工、客户和合作伙伴的意见和建议,以便更好地了解他们的需求和期望。根据这些反馈,企业可以对业务连续性计划进行针对性的改进,提高计划的实用性和有效性。
六、总结与建议
(一)总结
业务连续性管理是企业应对各种潜在风险和危机的重要手段。通过全面的风险评估、合理的策略制定、有效的人员培训和沟通、可靠的技术支持以及持续的改进,企业能够在危机中保持业务的连续性,减少损失,提升竞争力。
在实际操作中,企业需要根据自身的特点和需求,选择适合的标准和框架,制定详细的业务连续性计划,并确保计划的有效执行。同时,要注重与外部组织的合作和协调,共同应对危机。
(二)建议
- 加强风险管理意识 :企业管理层应高度重视风险管理,将业务连续性管理纳入企业战略规划中。通过培训和教育,提高全体员工的风险意识和应对能力。
- 建立完善的 BCM 体系 :根据企业的实际情况,建立一套完善的业务连续性管理体系,包括政策、流程、计划和资源等方面。明确各部门和人员的职责和权限,确保体系的有效运行。
- 定期进行演练和测试 :定期组织业务连续性演练和测试,检验计划的可行性和有效性。通过演练,发现问题并及时进行改进,提高企业的应急响应能力。
- 加强技术支持 :不断提升企业的技术水平,采用先进的技术和工具,提高 IT 系统和基础设施的可靠性和可用性。关注新兴技术的发展,及时引入适合企业的新技术。
- 保持与外部组织的合作 :与供应商、合作伙伴、应急服务机构等建立良好的合作关系,共同制定应对策略,共享资源和信息。在危机发生时,能够相互支持,共同应对挑战。
- 持续改进和优化 :将业务连续性管理作为一个持续的过程,不断进行评估和改进。关注行业的最新动态和最佳实践,借鉴其他企业的经验教训,不断优化企业的业务连续性管理体系。
总之,业务连续性管理是企业生存和发展的重要保障。企业应充分认识到其重要性,采取有效的措施,建立健全的管理体系,以应对各种潜在的风险和危机,确保企业的持续稳定发展。
下面用 mermaid 流程图展示业务连续性管理的整体流程:
graph LR
A[风险评估] --> B[制定策略]
B --> C[建立计划]
C --> D[人员培训]
D --> E[沟通协调]
E --> F[技术支持]
F --> G[演练测试]
G --> H[持续改进]
A --> I[业务影响分析]
I --> B
H --> A
同时,为了更清晰地展示业务连续性管理的各个环节和要素,我们可以用表格进行总结:
|环节|要素|具体内容|
|----|----|----|
|风险评估|潜在威胁|自然灾害、人为错误、技术故障、供应链中断等|
| |业务影响分析|确定关键业务功能、评估影响程度、确定 RTO 和 RPO|
|制定策略|风险应对|规避、减轻、转移、接受|
| |恢复策略|根据 BIA 结果制定|
|建立计划|业务连续性计划|涵盖各个方面的详细计划|
| |应急响应计划|针对不同危机的应急措施|
|人员培训|危机意识|提高员工对风险的认识|
| |应对能力|培训员工在危机中的操作技能|
|沟通协调|内部沟通|确保员工了解危机情况和应对措施|
| |外部沟通|向客户、合作伙伴和监管机构通报情况|
|技术支持|IT 系统|确保可靠性和可用性|
| |基础设施|网络、通信设施等|
|演练测试|演练类型|桌面演练、功能演练、全面演练等|
| |测试内容|计划的可行性、有效性|
|持续改进|评估反馈|收集意见和建议|
| |优化调整|根据评估结果改进计划|
通过以上的总结和建议,希望能够帮助企业更好地理解和实施业务连续性管理,提高企业的抗风险能力和竞争力。在当今复杂多变的商业环境中,做好业务连续性管理是企业实现可持续发展的关键。
超级会员免费看
5万+

被折叠的 条评论
为什么被折叠?



