您已经知道业务连续性/灾难恢复是组织成功的关键组成部分。 我们知道需要有指标来衡量工作的有效性。 第一步是了解业务连续性和灾难恢复规划中重要的指标,这正是本文将要讨论的内容。 您还需要一个工具来收集和报告这些指标。 根据您的组织规模和 BC/DR 计划的成熟度级别,其范围可以从 Excel 模板到功能强大的自动化软件。
有 7 个重要的业务连续性/灾难恢复指标需要监控以增长和衡量恢复计划:
虽然还有许多其他指标需要监控,但这些指标可作为基本的计划审查,并表明您为解决阻塞问题做好了充分的准备。
前两个重要的 BC/DR 指标是恢复时间目标 (RTO) 和恢复点目标 (RPO)。 RTO 是项目可以空闲的最大可接受时间量。 RPO 决定了您可以承受丢失多长时间的数据,以及您的备份是否可以保存其余数据。 例如,如果您可以承受丢失一小时的数据,则需要至少每小时进行一次备份。
备份和恢复过程是良好的 BC/DR 计划的核心,因此您需要考虑 RTO 和 RPO 来确定最适合该作业的备份和恢复工具。 例如,如果您生成中等到高交易量和价值的连续交易,您可以承受损失多少交易分钟? 你能承受多久的下班时间? 此类应用程序可能会受益于通过连续数据保护 (CDP) 实现的非常频繁的块级备份,但除非同时查看 RTO 和 RPO,否则您不会知道这一点。
最后,你需要测量 涵盖每个业务流程的计划数量 ,以及 自每个计划更新以来经过的时间 。 关键绩效指标 (KPI) 是衡量计划运行情况的指标,也是您不能忽视的指标。 您可以设置 KPI,确定审查和更新计划的频率(例如每月、6 个月或每年)以及恢复计划涵盖多少业务功能,并制定行动计划以实现 100% 的覆盖率。 如果您缺乏时间和资源,请从最关键的业务流程开始。
企业可能有数百到数千个流程,如果没有计划就不可能恢复流程。 BC/DR 规划的一个关键指标是 受潜在灾难威胁的进程数量 .
您应该从风险分析和业务影响分析开始:
然后,您可以制定计划来保护这些流程并最大程度地减少发生灾难时的中断。
但静态计划可能会停滞不前。 除非您定期更新计划以考虑应用程序、数据、环境、员工和风险的变化,否则您无法回滚流程。 您应该为自己设置提醒,以便在周期的适当时刻提示计划审查。 在完美的世界中,你会得到各个部门负责人的确认,他们审查和更新了他们的计划,但说实话:审查和更新这些计划是一个巨大的麻烦,如果他们及时完成,那几乎是奇迹。 使用该软件可以缓解这个痛点:您可以自动向各种计划所有者发送电子邮件提醒,并在软件中跟踪他们的进度 - 无需被动攻击性电子邮件! 该软件还消除了许多与变更管理相关的繁琐任务。 例如,自动化数据集成将使您的数据随着其他应用程序中的数据变化而自动更新。 如果 100 个计划中使用单个联系人并且其电话号码发生变化,集成系统也会将该变化推送到您的业务连续性和应急管理计划中。
确定业务功能如何相互依赖的最简单方法之一是使用依赖关系建模工具。 这将帮助您直观地了解应用程序的依赖项是否允许您满足 RTO 和 SLA。
例如,如果您需要在 12 小时内恢复应付帐款服务,但这取决于可能需要长达 24 小时才能恢复的财务软件,则应付帐款服务无法满足 12 小时 SLA。 依赖建模器动态地说明这些依赖关系以及计划何时以及如何崩溃。
你应该测量 恢复业务流程所需的实际时间 。 您可以使用 BC/DR 工具来测试恢复过程,以跟踪每个步骤需要多长时间。
或者,您可以使用手动计时每个步骤的老式方法。 这些测试将帮助您确定您的人员和流程是否可以使用现有计划满足 RTO。 您应该能够在计划允许的时间内完成恢复任务,如果不能,则需要修改您的计划,使其切合实际且可实现。
最后,此资源中涵盖的最后一个指标是 实际恢复时间与预期恢复时间之间的差异 ,也称为差距分析。 您可以通过故障转移和恢复测试、企业级 BC/DR 测试以及差距分析来测试差距。 一旦发现计划中的差距,您就可以设置 KPI 并在计划过程中使用它们。
BC/DR 软件收集的数据必须“干净”,以确保准确的报告和规划。 为了保持良好的数据卫生,请务必使用下拉菜单、选项列表、文本格式和数据验证来标准化数据输入。 例如,如果我们将员工电话号码纳入计划,我们建议检查这些电话号码是否包含区号并仍在使用。
重复数据删除以及身份和访问管理 (IAM) 可以帮助生成优雅的数据。 您可以使用重复数据删除来消除同一条目的多个方面。 您可以使用凭据(认证)以及权限(授权)以确保只有合格的用户才能输入记录和主数据。 通过将 BC/DR 系统与其他应用程序(例如,HR 系统)集成,您还可以节省大量时间和麻烦,以避免记录重复和任何可能的错误。
使用关系建模工具确定关键业务功能以及它们如何相互依赖。
接下来,我们使用 RTO 和 RPO 指标设置可接受的停机时间阈值。 我们测试计划,看看我们是否接近或超过这些阈值。 之后,让我们回顾一下计划并再次测试它们。 我们应该设置 KPI 来衡量计划更新和测试的频率,并进行差距分析以比较计划恢复时间与实际恢复时间。
最后,确保保持数据“卫生”,以实现准确的报告。 如果数据不准确,BC/DR 指标就完全没有用处。 这似乎是理所当然的事情,但令人惊讶的是,有多少公司通过歪曲其 SLA 的报告来让自己陷入一种错误的安全感。 现实一点总是最好的,即使这意味着接受所涉及的风险。
Ercole Palmeri