Chevron Left

查看所有社区故事

以下是我从创建数据管道中学到的

2021 年 11 月 17 日

贡献者

Srivamsi Sakirepalli

Lendingkart

photo of Srivamsi Sakirepalli

Srivamsi 是 Lendingkart 的数据工程师,Lendingkart 是一家为企业和金融机构赋能的初创公司。他是基础设施、数据和数学爱好者。您可以在 LinkedIn 上找到 Srivamsi。

创建数据基础设施的重要性

我们公司与各种数据存储合作,用于构建应用程序、分析和做出明智的数据驱动决策。作为数据工程团队的一员,我们必须跟上组织的增长和规模。

随着数据的 volume-velocity-variety 的增加,存储-移动-管理成为一项艰巨的任务。(看看大数据 3V 已经如何发挥作用)。

数据工程师的部分职责是选择正确的原则(ETL-ELT;Kappa-Lambda;治理)和基础设施(存储;计算;框架)。“何时”“为什么”使用上述工具起着重要作用。

准备创建数据管道

在构建管道之前,请务必询问一些关于数据和已安装系统的问题

  • 源是什么,接收器在哪里?(数据流是本地部署还是外部部署)
  • 这是一次性程序还是必须扩展?
  • 数据平台的成本和预算是多少?
  • 是需要实时还是批量处理,系统是否支持该方法?
  • 我们是否有现有的基础设施来使其工作,以及未来的人员支持?
  • 是否有现成的企业平台可以完成所有工作?(自建还是购买)

创建数据管道的好处

这是我在使用不同类型的数据和系统后对 ETL/ELT 的一些看法。

在组织内部将数据从事务数据库 (OLTP) 移动到分析平台 (OLAP) 时,ELT 是最佳选择。中间存储解耦了 OLTP 和 OLAP,这在使用案例(例如数据的历史刷新或优化仓库表)出现时非常重要。ELT 为恢复、重新运行提供更好的 SLA,并消除源系统资源激增的风险。(无需在晚上/周末安排作业)

听起来使用 ETL 并动态转换数据更酷且明显更快,但在使用自托管系统时,将您可以收集的所有数据以有组织的方式存储在低成本对象存储(AWS S3、Azure ADLS)中是有益的,并且可以扩展!数据集中且易于访问。

当为运营分析(面向数据人员的反向 ETL)提供支持时,ETL 提供了更好的价值。习惯于作为主干的内部数据库很少改变,但分析 SaaS 平台肯定会改变。这些平台上的最终用户期望随时可用的数据,以便做出明智的决策。选择企业级或开源 ETL 工具可以更快地开发到各种外部系统的数据管道,而无需预先了解所有目标。(不要重复造轮子)

ETL 也很有帮助,因为外部系统对存储的数据量有限制和成本。因此,无需解释何时数据限制超出以及仪表盘在工作日停止更新。

平衡快速开发、数据移动和存储所需内容本身就是一项繁琐的任务,但关键是维护数据完整性(事实、信息、见解),并使数据管理在今天和未来都更轻松、更灵活。

贡献者

Srivamsi Sakirepalli

Lendingkart

photo of Srivamsi Sakirepalli

Srivamsi 是 Lendingkart 的数据工程师,Lendingkart 是一家为企业和金融机构赋能的初创公司。他是基础设施、数据和数学爱好者。您可以在 LinkedIn 上找到 Srivamsi。

您可能还会喜欢

撰写社区故事的技巧

Metabot

Metabase

预测下一次点击

Ukrit Wattanavaekin

Metabase

您可能还会喜欢

撰写社区故事的技巧

Metabot

Metabase

预测下一次点击

Ukrit Wattanavaekin

Metabase