如何衡量平均恢复时间

了解平均恢复时间(MTTR),包括如何衡量它,以及如何使用 Metabase 在仪表板和可视化中利用它。

什么是平均恢复时间?

平均恢复时间(MTTR)是指从部分或完全故障中恢复的平均时间。这个指标专门用于DevOps,可以提供对团队稳定性和流程的洞察。MTTR涵盖了从故障中恢复的整个流程,包括服务完全恢复正常运营。使用MTTR也是比较您的恢复时间与竞争对手表现的一种绝佳方式。虽然确定您的MTTR并不能完全解决故障发生时的所有问题,但它非常适合记录您的团队处理故障的速度以及整个恢复过程所花费的时间。

开始
Graphs of Mean Time to Recovery

如何计算平均恢复时间

您需要知道在特定时间段内每起事件的总停机时间,例如一天、一周、一个月的平均值。然后,您需要统计在该时间段内发生的总事件数。您将总分钟数除以在指定时间段内发生的事件数。例如,如果您的服务在一周内总共停机了2小时(120分钟),并且总共有3起单独的事件,那么您将120除以3。您的平均恢复时间将是40分钟。

与平均恢复时间相关的其他KPI指标

  • 部署频率
  • 变更失败率
  • 停机时间
  • 正常运行时间
  • 在线应用程序性能
  • 平均检测时间
  • 变更的领先时间
  • 错误率
  • 自动化测试通过率

为什么为平均恢复时间构建仪表板?

Sales per source graph

一切尽在掌握

通过收集您最重要的指标到一个单一视图,让每个人都保持一致。

Sales per source graph

分享您的观点

通过在内部维基、网站和内容中嵌入数据,将数据带到任何需要的地方。

eCommerce orders filter

解锁探索

赋予您的团队测量自身进度和探索实现目标的新路径的能力。

如何使用Metabase测量平均恢复时间

Get started

步骤1。
跳过自定义报价

没错,无需销售电话——只需注册,5分钟内即可开始运行。

types of databases

步骤2。
连接到您的数据库

我们连接到最受欢迎的生产数据库和数据仓库。

dashboard example

步骤3。
构建您的KPI仪表板

邀请您的团队并开始构建仪表板——无需SQL。

开始使用Metabase

  • 免费,无约束的试用
  • 易于每个人使用——无需SQL
  • 5分钟内启动运行