跳到主要内容

数据仓库与. 数据湖

这是现代数据架构的正确问题吗?

理论上,数据湖或仓库在现代数据架构中扮演着不同的角色. 您的数据平台促进了源和目标之间的无缝数据登台和存储. 您的基础设施会随着用例的演变而响应和增长, 业务优先级, 和技术. 

但在现实世界中,模式、语义和 基础设施的变化 不断地. 跟上计划的变更已经够困难的了, 但是,几乎不可能对通常未被察觉的计划外更改做出响应. 

显然,数据工程师需要他们能得到的所有工具 建立和操作数据管道 在数据湖和数据仓库不断变化的环境中.

这就是为什么这个问题不是——也从来没有——数据湖的原因 or 数据仓库. 问题是:电子游戏网址大全如何 利用数据湖和仓库 在现代数据体系结构中,大多数数据已经准备好(并且一直处于准备状态)来回答分析师可能想要问的任何问题?

像streamset这样的平台使这一切成为可能, 但在电子游戏网址大全深入研究如何, 电子游戏网址大全来回顾一下, 以及它们如何一起工作.

什么是数据仓库?

数据仓库是一个 关系数据存储库 来自事务系统, 操作数据库, 以及业务应用, 用于报告和数据分析. 它通常是组织商业智能实践的关键组成部分, 存储易于数据开发人员使用的高度策划的数据, 数据分析师, 和业务分析师. 

数据仓库简史

数据仓库的出现是为了解决 数据提取与分析 从一个组织的运作系统. 在数据仓库之前, 数据被提取并存储在不同的地方,以服务于独立的业务部门. 

由于这些业务部门都是独立运作的,这造成了昂贵的冗余 数据提取加工、储存和管理.

通过提供结构和中央存储库, 数据仓库使企业能够更有效地集成数据. 直到21世纪初,这种模式基本上还不错. 

但后来事情变得更加复杂. 数据量、速度和多样性激增. 数据仓库没有很好地利用这些大量的非结构化和半结构化数据. 

进入数据湖.

什么是数据湖?

数据湖是一个 存储平台 为半结构化, 结构化, 非结构化, 和二进制数据, 在任何规模, 其特定目的是支持分析工作负载的执行. 数据以“原始”格式加载并存储在数据湖中,不需要索引或准备. 这允许灵活地执行多种类型的分析-探索数据科学, 大数据处理, 机器学习, 以及实时分析——来自最全面的数据集, 在一个中央存储库中. 

数据湖作为数据仓库的补充

数据湖非但没有取代数据仓库,反而增强了数据仓库的效用. 

数据湖允许组织进行大量非结构化的工作, 他们可以将来自多个源的半结构化和结构化数据路由到多个专用的数据仓库. 

这使得在其他方面,更容易和更有成本效益成为可能 为转换准备数据 并探索仍有待发现的用例的可能性. 

但这一切在理论上听起来都很美好, 实现和管理 这么多不同的来源和目的地在现实世界中并没有那么容易发挥作用.

迁移到云数据平台

廉价云存储和高性能处理的发展带来了新的数据解决方案概念,如 数据云 和 数据lakehouse. 这些创新将数据仓库的特性和功能与数据湖的特性和功能相结合. 

数据云和湖屋的兴起支撑了一场更大的运动, 将本地工作负载转移到云数据平台. 然而,仅仅将工作负载从本地转移到云数据平台是不够的. 

跟上变化和海量数据的步伐, 公司需要利用智能数据管道. 通过抽象出实现的“方式”, 智能数据管道可以方便地连接到任何数据库, 数据仓库, 或者数据湖服务, 并通过提供有用的东西来快速提供价值, 可靠的, 和当前的数据.

转移焦点:从数据集成的“如何”转向“做什么”

最终, 数据工程是一种以尽可能快和经济有效的方式获得产生价值的数据产品的实践. 

这样做需要 流式和批处理数据 可跨混合和多云平台提供. 必要的工具(i.e. 数据湖,数据仓库)和集成模式(i.e. ETL、英语教学, 流媒体, CDC, batch)依赖于平台和用例. 

正如一位用户在这里解释的那样 Reddit的线程, “你基本上是在围绕数据源进行设计, 摄入的方法, 存储, 处理, 消费, 与平台管理.”

数据工程师的数据集成

电子游戏厅是 从零开始建起来 为了解决这个巨大的设计问题,可以提供以下内容:

  • 广泛的连接性和数据平台支持
  • 内置对数据源、目标和底层处理平台的理解
  • 对于复杂的数据工程具有强大的可扩展性
  • 帮助ETL开发人员的模板和可重用组件
  • 内部部署和云部署选项

通过提供一个单一的、基于云的界面,你可以 查看并管理整个基础设施, 电子游戏厅 DataOps平台 释放现代数据架构的力量.

有了正确的数据集成平台,您就可以跟上最新的创新,并将数据放到需要的任何地方. 数据仓库与数据湖问题成为一个有争议的问题. 

回到顶部

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. 隐私政策