跳到主要内容

数据集成:工具,
技术和关键概念

数据集成是如何从ETL发展到数据工程的,您为什么需要这样做 要知道

什么是数据集成?

数据集成将来自组织中任何来源的各种类型和格式的数据组合成数据湖或数据仓库,为分析提供统一的事实基础. 利用这一数据集可以让企业做出更好的决策, 使各部门更好地合作, 并带来更好的客户体验.

什么是数据集成?

数据集成意味着将来自多个数据源的数据合并到一个数据集中,以便用于一致的商业智能或分析.

这是一个非常简单的解释,这个复杂的话题已经发展了30年的历史. 理解数据集成如何从后端过渡, 回顾到核心实时基础设施的过程,首先检查数据集成是如何工作的.

数据集成是如何工作的?

要将数据从一个系统移动到另一个系统,需要一个数据管道来理解数据的结构和含义,并定义它将通过技术系统的路径. 一种相对简单且常见的数据集成类型是数据摄取, 来自一个系统的数据定期地集成到另一个系统中. 数据集成还可能包括清理, 排序, 充实和其他过程,使数据准备好在最终目的地使用. 有时,这发生在存储数据和调用流程之前 ETL(提取、转换、加载). 其他时候,更有意义的做法是先存储数据,然后准备使用 ELT(提取、加载、转换). 在其他情况下, 数据在存储的地方进行转换和调整,而不需要移动它本身.

这些步骤在一定程度上取决于 数据将如何存储. 最常见的数据存储类型有:

数据库

最简单和最熟悉的存储数据的方法包括关系数据库和NoSQL数据存储,可能根本不需要数据转换.

数据仓库

向数据结构添加维度级别,以显示数据类型之间的关系,通常需要一个转换步骤,以使数据可以在分析系统中使用.

对象存储

存储大量非结构化数据,如传感器数据、音频和视频文件、照片等., 以简单的原生格式, 包含数据的自包含存储库, 元数据, 和一个唯一的身份号码. 元数据和ID号允许应用程序定位和访问数据.

数据湖

在单个存储系统中收集原始和非结构化数据, 常对象存储, 被改造后使用的. 数据湖拥有大量各种各样的数据类型,使处理大数据、应用机器学习和人工智能成为可能.

数据仓库

向数据结构添加维度级别以显示数据类型之间的关系. 通常需要一个转换步骤,使数据可以在分析系统中使用.

数据Lakehouse

通过实现数据仓库的数据结构和数据湖的管理特性,作为数据仓库和数据湖的单一平台. 结合这两种解决方案可以降低存储成本, 减少数据移动和冗余, 并且节省了管理时间.

数据集成是如何发展的?

在20世纪90年代初, 当公司开始采用数据仓库从多个系统收集数据进行燃料分析时, 当时没有智能手机或电子商务. Salesforce和软件即服务这两个类别还不存在. 亚马逊连一本书都卖不出去,更不用说按需计算了. 一组用于在内部应用程序之间集成数据的工具, SaaS应用程序, 数据库, 数据仓库也开始出现. 当时:

  • 数据以结构化格式来自业务应用程序和操作数据库,可以映射到分析所需的结构.
  • 数据到达并分批处理, 及时创建业务快照,并存储在数据仓库或数据集市中.
  • 数据用于财务报告, 销售仪表板, 供应链分析, 以及企业的其他基本职能.

数据集成主要是ETL开发人员的责任, 谁使用手工编码或专门的软件来创建ETL映射和作业. 他们发展了与他们集成的源和目标系统相关的专门技能, 以便构建能够正确处理这些复杂系统的ETL映射.

数据集成由企业IT拥有和管理,并控制用于收集数据的硬件和软件, 存储它, 并分析它. 他们关注性能, 安全, 以及推动业务增长和创新的单块数据管理系统的成本. 根据明确的变更管理过程,经过多年仔细地进行变更.

迎接现代数据集成的挑战

根据数据,今天的世界看起来非常不同. 让电子游戏网址大全看看发生了什么变化:

数据和数据源的爆炸 (物联网, api, 云应用程序, 前提数据,各种数据库等等), 数据结构与基础设施服务的根本性创新相结合, 计算能力, 分析工具和机器学习已经改变了企业数据集成.

  • 实时决策和实时服务需要在飞行过程中转换的连续数据.
  • DevOps和敏捷软件开发实践已经遍及整个组织, 增加了对永远开机的需求, 自助服务数据.
  • 应用程序和计算服务都需要从内部部署转移到云计算 云数据集成, i.e.数据集成,超越了企业数据中心的围墙花园.

突然之间,数据集成的整个生命周期与初始实现一样重要. 数据集成必须支持来自不同来源的数据的持续集成, 持续的数据传递和持续的创新, 这需要自动化. 数据集成只是敏捷的一部分 DataOps 练习, ETL映射或作业 是否认为它是许多不同的“数据管道”模式的一种类型. 重点不只是实现的“如何”,而是业务需要的“什么”.

数据工程师的数据集成

新的角色和责任

这使电子游戏网址大全在整个企业中出现了新的角色和责任. 随着数据集成发展到更复杂的业务需求, 数据管道的职责不仅仅需要理解如何构建业务请求.

向数据工程的转变

数据工程师 是否已成为数据平台团队的核心成员. 他们是理解为什么业务分析师和数据科学家需要数据的技术专业人士, 以及如何构建数据管道来交付正确的数据, 使用正确的格式, 到正确的地方. 最好的数据工程师能够预测业务的需求, 跟踪新技术的崛起, 并维护一个复杂且不断发展的数据基础设施.

一个熟练的数据工程师和正确的工具可以支持10个ETL开发人员, 反过来, 启用100个数据科学家. 因此,根据2020年的一份报告,数据工程师的需求增长了50% Datanami这使它成为美国增长最快的就业岗位之一.

什么是数据科学家?

数据科学家是分析和提取数据集的见解,以帮助组织决策和解决复杂问题的人. 如果Netflix昨晚向你推荐了一部完美的电影,那么很可能有一位数据科学家参与其中. IT部门可以启用 数据科学家自助式数据采集 而业务分析师将更有能力保持对数据的控制.

高管层的数据管理

数据对组织的重要性越来越多地体现在首席数据官和首席信息官领导的全企业数字化转型和平台标准化行动中. 他们的参与通常侧重于遵从性、成本控制和可靠性目标.

数据工程生态系统和工作流程

数据集成工具

什么是数据集成工具?

数据集成工具 基于软件的工具是否能够吸收, 巩固, 变换, 并将数据从源(s)移动到目标, 执行映射, 转换, 同时还要清理数据. 最终,他们将数据整合到一个“单一的真实来源”目的地,例如 数据湖 or 数据仓库. 这允许使用一致的、可靠的数据 分析和 商业智能.

如何识别好的数据集成工具?

随着数据、源系统和目的地的爆炸式增长,数量 数据集成解决方案 近年来,随着这些技术的创新,可用性成倍增加. 的 本地 ETL (提取、转换和加载)过去的解决方案不能处理今天的多重 数据源、复杂转换、混合和多云环境,以及 实时数据 需要. 

幸运的是,这里不缺新产品 数据集成平台 在那里. 找到他们很容易,就像检查一个网站 G2的人群 对于用户评论或分析师评估,如 Gartner®Magic Quadrant™for 数据集成工具. 正如你将在2021年魔术象限的市场概述部分发现的那样, “市场领先者继续输给较小的供应商.“在电子游戏厅, 电子游戏网址大全认为,这是因为该部分提出的第二个重要观点:“数据ops需要作为一个新兴学科得到支持.”

数据工程时代的考虑

所以,你得到了一份潜在供应商的名单,以及分析师和随机评论者的意见. 但你怎么知道什么是最好的 数据集成工具 是为了您的业务和数据集成吗 用例(s)? 

当你选择 数据集成平台,有以下几个重要的考虑因素:

  • 什么 类型的数据 会在你的 数据管道?
  • 如何处理这些数据?
  • 数据从哪里来,又去哪里?

数据工程时代的数据集成工具考虑

选择数据集成工具时,有以下几个重要的考虑因素:

  • 你的数据管道中会有什么类型的数据?
  • 如何处理这些数据?
  • 数据从哪里来,又去哪里?

结构化、非结构化和半结构化数据

电子游戏网址大全从分析中需要整合的数据类型开始, 机器学习, 和人工智能工作负载.

结构化数据 是组织在电子表格或关系数据库,如SQL. 所有数据都有一个行和一个列来定义它的含义. 将一个数据库中的“company”列映射到另一个数据库中的“companyname”列非常简单. 结构数据通常在 数据仓库或数据集市,用于分析和报告.

非组织性数据 缺乏行/列类型的组织结构,无法帮助您对其进行排序. 例如, 推特上的评论可能会包含你的品牌名称, 但你的品牌名称并没有被推特定义为“公司名称”. 没有办法逻辑地将推特流内容映射到数据库,并计算您的品牌名称在推特上的提及次数. 您并不希望映射来自推特的每个单词(想象一下!). 你唯一关心的是那些提到你公司的推文. 不是转换所有来自推特的数据,而是将其流到一个 数据湖 并将机器学习应用于其中.

半结构化数据 有一些逻辑和层次结构,但没有关系数据库那么多. 例如, 电子医疗记录可以使用行业标准XML格式,该格式具有表示患者姓名的结构, 诊断, 等.,但该信息不在行和列设置中.

您的业务可能以各种方式使用这三种类型的数据, 甚至把它们结合在一起, 哪些会有自己的挑战. 您的数据团队需要熟悉需要什么类型的数据,何时以及如何处理它.

批处理、微批处理和流处理

接下来,您需要考虑需要多快处理您的数据. 您的分析系统和应用程序可以等待数据吗? 或者是立即需要?

批处理数据 处理允许您进行一次性数据迁移,或在已定义的数据集上定期运行数据转换. ETL开发人员使用批量处理来收集和转换数据集,以供分析系统查询. 例如, 在晚上批量处理餐馆的订单可以很好地支持每周的工作, 每月, 或季度财务和人力资源报告.

Micro-batch处理 允许更频繁地处理较小的数据集. 这种方法允许将数据用于即时反馈和自动响应,而无需始终打开流数据. 一辆运送土豆到餐馆的卡车可能装有一个传感器,每5分钟向数据湖发送一批GPS数据. 如果卡车抛锚, 餐厅会在几分钟内收到警报, 但在卡车停下来的那一刻却没有.

流处理 从源到目的地的数据流是否始终处于开启状态, 例如客户交互, 传感器数据, 网站点击量, 语音助手, 摄像机的输入, 和更多的. 如果电子游戏网址大全的餐厅开始接受在线订单,推荐引擎可能会使用事件 流处理 推荐薯条配奶昔. 晚一天发布建议实在是太迟了.

或者让电子游戏网址大全假设拥有特许经营权的公司实体为全球1000家不同的商店提供实时销售点数据服务.SLA 99%正常运行时间. 如果设备出现故障,IT团队会立即收到警报, 甚至更好的, 在满足某些条件时预测失败.

或者这里有一个自然语言处理的例子:“嘿,Siri,去麦当劳点一份大奶昔.“你喜欢薯条配那种奶昔吗??”

数据被称为驱动现代企业的燃料, 但一个更好的类比可能是一个企业生存所需要的空气. 数据不仅仅能帮助企业成长和前进, 它嵌入到业务交付的每个方面,以至于业务连续性依赖于可靠, 连续的数据流.

内部部署架构、云架构、多云架构和混合架构

云计算的兴起改变了数据处理的“去向”. 云中的按需处理和计算能力的可用性已经将数据存储和投资从本地数据中心转移到云服务提供商.

本地 指在现场建立和维护的数据中心. 对于大型, 全球性组织, 办公场所可以跨越国家和地理边界, 并在硬件上进行了大量投资, 软件, 人, ,甚至是建筑物. 隐私, 安全, 控制和合规都在企业持续投资和维护内部数据基础设施方面发挥了作用. 如今,许多公司正在寻求部分(如果不是全部的话)迁移 将工作负载转移到云.

云架构 让公司快速起步, 为他们使用的东西付费, 将数据中心的维护负担卸给供应商. 云基础设施提供商, 亚马逊网络服务(AWS), 微软Azure, 谷歌云平台(GCP) 和其他人, 使公司能够在“租用”的基础设施上运行工作负载,而无需构建或维护它. 可以使用创新的服务来完成数据仓库等工作负载, 数据的湖泊, 数据处理, 分析和搜索技术. 现收现付和订阅模式意味着增量支付,而不是大规模的资本投资. 云数据平台已经成为新公司和组织内部部门的首选基础设施.

2020年,随着全球大流行造成的大规模社会和宏观经济混乱,向云的转变加速. 数字化转型势在必行 许多公司现在都在混合基础设施中融合了on-prem和云服务.

虽然AWS、微软Azure和GCP主导了公共云服务提供商类别, 雪花数据云数据仓库云数据平台 提供一种新的方法. 结果就是选择. 您不必再受制于多年前做出的基础设施决策. 只要您的工作负载可以被迁移,您就可以根据自己的需要选择最佳的优化平台. 事实上,许多组织越来越发现自己拥有一个多平台, 多重云架构.

高德纳研究使用混合云条形图

根据Gartner Research Circle的调查:“近一半的受访者表示,他们的数据管理既在本地,也在云服务提供商(CSP)——混合云.”1 电子游戏网址大全相信,这意味着您的数据集成工具必须适合这两种情况, 并在您的所有数据管道中提供可见性.

1 Gartner Inc .., “理解云数据架构:混合云,多云和云间Adam Ronthal, Donald Feinberg, 2020年5月27日.

GARTNER是GARTNER, Inc .的注册商标和服务商标. 和/或其在美国的附属机构.S. 在国际上使用,并得到许可. 保留所有权利.

从数据集成到数据工程

作为数据类型, 处理类型, 和基础设施扩大, 数据集成的“方式”几乎是不可知的. 会议室IT基础设施地图的时代已经成为历史. 它太复杂,太多样化,一个人或群体无法进行地图和跟踪. 每一个改变 数据结构、数据语义或数据基础设施 在这样一个复杂的、相互关联的、不可知的系统中,是一个潜在的失败点还是机会点.

这就是为数据工程师设计的现代数据平台依赖于智能数据管道的原因,智能数据管道抽象了实现的“如何”,这样您就可以专注于什么, 谁, 数据在哪里. 的电子游戏厅 数据工程平台 致力于构建智能数据管道,为跨混合云和多云架构的数据ops提供动力. 你可以 构建您的第一个数据管道电子游戏厅数据收集器 免费.

回到顶部

电子游戏网址大全使用cookies来改善您对电子游戏网址大全网站的体验. 点击允许所有人同意并继续访问电子游戏网址大全的网站. 隐私政策