如何衡量平均恢复时间

了解平均恢复时间,包括如何衡量它,以及如何在 Metabase 的仪表板和可视化中使用它。

什么是平均恢复时间?

平均恢复时间 (MTTR) 是从部分或完全故障中恢复所需的平均时间。此指标专门用于 DevOps,用于深入了解团队的稳定性和流程。MTTR 涵盖从开始到结束的整个故障恢复过程,“结束”意味着服务再次完全运行。使用 MTTR 也是衡量您的恢复时间与竞争对手相比如何的绝佳方法。虽然计算 MTTR 并不能完全解决发生故障时发生的所有事情,但它非常适合记录您的团队解决故障的速度以及整个恢复过程所需的时间。

开始使用
Graphs of Mean Time to Recovery

如何计算平均恢复时间

您需要知道设定时间段内每次事件的总停机时间,例如一天、一周、一个月等的平均值。然后,您将获取该时间范围内发生的事件总数。您需要将总停机分钟数除以指定时间段内发生的事件数。例如,如果您的服务在一周内总共停机 2 小时(120 分钟),并且总共发生了 3 起单独的事件,您将用 120 除以 3。那么您的平均恢复时间将为 40 分钟。

与平均恢复时间相关的其他 KPI 指标

  • 部署频率
  • 变更失败率
  • 停机时间
  • 正常运行时间
  • 在线应用性能
  • 平均检测时间
  • 变更前导时间
  • 错误率
  • 自动化测试通过率

为什么要构建平均恢复时间仪表板?

Sales per source graph

一切尽在一个地方

通过将最重要的指标收集到一个视图中,使每个人都保持一致。

Sales per source graph

分享您的见解

通过将数据嵌入到您的内部 Wiki、网站和内容中,将数据带到任何需要的地方。

eCommerce orders filter

解锁探索

使您的团队能够衡量自己的进度并探索实现目标的新途径。

如何使用 Metabase 衡量平均恢复时间

Get started

步骤 1。
跳过自定义报价

没错,无需销售电话——只需注册,即可在 5 分钟内开始运行。

types of databases

步骤 2。
插入您的数据库

我们连接到最流行的生产数据库和数据仓库。

dashboard example

步骤 3。
构建您的 KPI 仪表板

邀请您的团队并开始构建仪表板——无需 SQL。

开始使用 Metabase

  • 免费,无承诺试用
  • 对所有人来说都很容易——无需 SQL
  • 5 分钟内启动并运行