我们都遇到过这种情况——一些仪表板特别过时,但您可能仍然需要这些数据来紧急报告。
您如何快速使仪表板恢复运行?最终,数据问题可以归纳为3个主要方面。沿着这些思路思考,帮助您进行探索
- 输入:进入数据管道的数据已更改。
- 转换:转换逻辑已更改。
- 操作:由于时间表更改、权限更改、运行时错误和基础设施故障等问题,数据系统无法按预期运行。
要准确确定问题可能出在哪里,请按照以下步骤操作。
从源头开始
通常,仪表板是由多个数据源的一系列转换构建而成的。目标是追溯到上游第一个出现问题的节点。在最理想的情况下,最直接的节点导致了错误,您可以立即修复它。在最坏的情况下,问题源于源头节点,您需要回补每个损坏的数据表,直到到达问题节点。
如果您可以访问,可以通过数据血缘文件获得一个全局视角,了解仪表板中所有数据库之间的关系。从最直接的上游节点开始,向后工作,检查哪个节点存在问题。
检查查询
现在您已经确定了故障的源头,下一步是找出创建表的逻辑。
1) 搜索日志:哪个查询最近被修改或重写?这些更改如何影响数据集?
2) 调查逻辑:是否有任何查询中的缺失可能导致错误?
深入了解数据
希望到现在为止,您已经对导致数据错误的可能原因有所了解。然而,如果完成上述步骤没有揭示问题的根本原因,您可以检查数据集,注意以下事项:
- 时间段 - 数据是否在特定时间段内出现错误?
- 时间戳 - 数据是否在正确时区?
- 货币 - 您的货币转换是否正确?
- 段 - 是否有新的段没有被查询覆盖?例如,桌面、移动;域名;
- 格式 - 字段中是否有任何应为数字的文本?
调查生产环境
如果不是数据问题,那么错误最有可能出现在运营环境中。数据系统日志可以突出潜在的故障区域,如
- ETL工具和数据库之间数据同步的延迟;
- 作业运行错误;
- 作业调度更改;
- 处理速度慢;
- 网络、访问权限和/或数据基础设施的更改;