一滴汗珠从我额头滑落,我颤抖的手指移向按钮。
我不是即将发射核弹的陆军上将,也不是 Space X 即将发射火箭的指挥官。
我只是一名商业智能分析师,正在**将数据模型变更合并到生产环境**。然而,我想我们的压力水平不相上下。
当然,我夸大其词了。
但任何在数据专业领域工作足够长时间的人都知道,对现有模型进行更改的压力有多大。特别是,如果您曾经发布过导致不准确、错误数据或错误结论的更改。
在进行数据模型更改时,避免失去对数据的信任
作为一名数据分析师,没有什么比利益相关者发现生产数据不准确更糟糕的了。
眼睁睁看着他们对您的数据失去信任,是我不愿发生在最坏敌人身上的事。这就是为什么您可能总是仔细检查数据,甚至希望运行自动化测试以确保没有重大错误悄悄溜入。
确保您的数据模型更改是正确的
但您可能仍然经常感到挥之不去的焦虑,担心自己遗漏了什么。
幸运的是,简单的解决方案是在数据模型更改中比较新旧数据
这是我们在 Infused Insight 采用的众多政策之一,旨在确保持续高质量和准确的数据。该公司帮助使用 Infusionsoft 的企业通过数据洞察获得更多潜在客户和销售额。这个解决方案非常有用。
我们第一次应用此策略时就注意到了数据中意外的更改。从那时起,它一次又一次地证明了其巨大的实用性。
理论上,解决方案很简单
在更改模型查询后,分析师应写下他们预期结果数据将如何变化的假设,例如:
“以前为 NULL 的广告号召性用语 URL 现在应该包含有效的 URL。”
接下来,他们应该对旧查询和新查询的结果进行比较,比较所有列值并检测所有新增和删除的行。
然后,他们检查是否只对数据应用了预期的更改。这似乎是一个非常常见的任务,并且应该有很多工具(最好是开源的)可以实现它。
选择正确的工具来支持您的数据模型更改
现实情况却有所不同。
有一些工具可以完全满足我的需求并提供用户友好的用户界面,但它们是闭源的,相当昂贵,最重要的是,只能在 Windows 上使用。
我们的最终解决方案是创建一个 Jupyter Notebook,它使用 Python、pandas 和 datacompy 来比较表的旧版本和新版本。您可以将其与 pandas 支持的任何数据库甚至 CSV 文件一起使用。
结果是一个 .txt 文件,其中包含更改摘要以及一个 SQLite 数据库,可让您详细查询所有已更改的列和行。
SQLite 数据如下所示
在截图中,您可以看到对 **rows_with_differences** 表的查询。此表包含发现两个版本之间存在差异的所有行。
对于确实发生更改的列(例如 **cta_link** 列),您将获得三个列(**_match**、**_df1** 和 **_df2**),这些列可以显示更改内容并轻松过滤数据。但对于所有行中都没有更改的列(例如 **ad_name** 和 **ad_status**),则没有这些附加列。
这样您就可以一目了然地看到发生了什么变化,同时也可以将更改后的数据与该行的其余数据放在一起进行分析。
我已将代码作为 Jupyter Notebook 发布到 GitHub,您可以按照以下步骤学习。
如何对数据模型更改进行相同类型的比较
首先,您需要下载代码并安装 Python 依赖项。
git clone git@github.com:Infused-Insight/sql_data_compare.git
cd sql_data_compare
pip install -r requirements.txt
接下来,您将需要打开 **data_compare.ipynb** 文件。您可以使用 Jupyter 服务器打开它……
jupyter notebook data_compare.ipynb
或者您可以下载 VSCode 并通过它运行。这是我偏爱的方法。打开 Jupyter Notebook 后,您需要调整设置。
该解决方案使用 Python 的 SQLAlchemy 模块从 SQL 数据库加载数据,然后使用 pandas 和 datacompy 进行比较,最后将结果写入 SQLite 数据库。
因此,第一步是配置 SQL 数据库设置和 SQLAlchemy 连接字符串。
在上面的示例中,它配置为连接到 MS SQL 服务器,但您可以将其更改为 SQLAlchemy 支持的任何数据库。
有关更多详细信息,您可以参考 其数据库 URL 文档。
之后,您可以在第二个 Jupyter 单元格中开始比较。
只需调整设置并运行即可。
您将在 **./comparison/** 目录中找到生成的报告和包含更改的 SQLite 数据库。
结论:数据模型更改
我希望这个简单的解决方案能帮助您避免错误,并让您有信心改进现有模型而无需担心破坏任何东西。