跳到主要内容

数据集成:工具,
技术和关键概念

数据集成是如何从ETL发展到数据工程的,为什么需要呢 要知道

什么是数据集成?

Data integration combines various types 和 formats of data from any source across an organization into a 数据湖 or 数据仓库 to provide a unified fact base for analytics. 利用这一数据集,企业可以做出更好的决策, 使各部门更好地协同工作, 并推动更好的客户体验.

什么是数据集成?

Data integration means consolidating data from multiple sources into a single dataset to be used for consistent 商业智能 or analytics.

这是对一个复杂主题的一个非常简单的解释,这个主题已经发展了30年. 了解数据集成是如何从后端过渡的, retrospective process into core real-time infrastructure starts 与 an examination of how data integration works.

数据集成是如何工作的?

To move data from one system to another requires a 数据管道 that underst和s the structure 和 meaning of the data as well as defines the path it will take through the technical systems. 一种相对简单和常见的数据集成类型是数据摄取, 一个系统的数据定期集成到另一个系统中. 数据集成还可能包括清理, 排序, 使数据在最终目的地准备好使用的浓缩和其他过程. 有时,这发生在数据存储和流程调用之前 ETL(提取,转换,加载). 其他时候,更有意义的做法是先存储数据,然后准备使用它 ELT(提取、加载、变换). 在其他情况下也是如此, 数据在存储它的地方被转换和符合,而不移动它本身.

这些步骤部分取决于 数据将如何存储. 最常见的数据存储类型是:

数据库

的 simplest 和 most familiar way to store data includes both relational 数据库 和 NoSQL data stores 和 may not require data 变换ation at all.

数据仓库

向数据结构添加维度级别,以显示数据类型如何相互关联 和 usually requires a 变换ation step to make data ready for use in an analytics system.

对象存储

存储大量非结构化数据,如传感器数据、音频和视频文件、照片等., 在他们的原生格式简单, 包含数据的自包含存储库, 元数据, 和唯一的ID号. 元数据和ID号允许应用程序定位和访问数据.

数据湖

在单个存储系统中收集原始和非结构化数据, 常对象存储, 稍后进行转换和使用. Data lakes hold vast amounts of a wide variety of data types 和 make processing big data 和 applying 机器学习 和 AI possible.

数据仓库

向数据结构添加维度级别,以显示数据类型如何相互关联. 通常需要一个转换步骤,使数据准备好在分析系统中使用.

数据Lakehouse

Serves as a single platform for data warehousing 和 数据湖 by implementing 数据仓库s’ data structures 和 management features for 数据的湖泊. 结合这两种解决方案可以降低存储成本, 减少数据移动和冗余, 节省了管理时间.

数据集成是如何发展的?

在90年代早期, 当公司开始采用数据仓库从多个系统收集数据进行燃料分析时, 那时还没有智能手机或电子商务. Salesforce和软件即服务作为一个类别还不存在. 亚马逊连一本书都没卖出去,更别说按需计算了. 用于在内部应用程序之间集成数据的一组工具, SaaS应用程序, 数据库, 数据仓库开始出现. 当时:

  • Data came from business applications 和 operational 数据库 in a structured format that could be mapped to the structure required for analysis.
  • 数据到达并批量处理, 及时创建业务快照并存储在数据仓库或数据集市中.
  • 数据用于财务报告, 销售仪表板, 供应链分析, 以及企业的其他基本职能.

数据集成主要是ETL开发人员的责任, 谁使用手工编码或专门的软件来创建ETL映射和作业. 他们开发了与他们集成的源和目标系统相关的专门技能, 以便构建能够正确地处理这些复杂系统的ETL映射.

Data integration was owned 和 governed by enterprise IT 与 control of the hardware 和 软件 used to collect data, 存储它, 并分析它. 他们关注的是性能, 安全, 以及推动业务增长和创新的单片数据管理系统的成本. 根据明确的变更管理流程,变更经过多年仔细地发生.

迎接现代数据集成的挑战

数据显示,今天的世界看起来很不一样. 让电子游戏网址大全看看发生了什么变化:

数据,数据源的爆炸 (物联网, api, 云应用程序, 前提数据,各种数据库等), 数据结构与基础设施服务的突破性创新相结合, 计算能力, 分析工具和机器学习已经改变了企业数据集成.

  • Real-time decision making 和 real-time services require continuous data that is 变换ed in flight.
  • DevOps和敏捷软件开发实践已经遍及整个组织, 需求不断增加, 自助服务数据.
  • 应用程序和计算服务从本地迁移到云计算需要 云数据集成, i.e.在企业数据中心的围墙外进行数据集成.

突然之间,数据集成的完整生命周期与初始实现一样重要. 数据集成必须支持来自不同来源的数据的持续集成, 持续的数据传递以及持续的创新, 这需要自动化. 数据集成只是敏捷的一部分 DataOps 练习, ETL映射或任务 是否被认为是启用它所需的许多不同“数据管道”模式的一种类型. 重点不只是“如何”实现,而是业务需要“什么”.

数据工程师的数据集成

新的角色和新的职责

这给电子游戏网址大全带来了整个企业中新角色和职责的增加. 随着数据集成已经发展为一种更加复杂的业务需求, responsibility for 数据管道s requires more than an underst和ing of how to build what the business requests.

向数据工程的转变

数据工程师 已经成为数据平台团队的关键成员. 他们是理解业务分析师和数据科学家为什么需要数据的技术专业人员, 以及如何构建数据管道来交付正确的数据, 格式正确, 到正确的地方. 最好的数据工程师能够预测业务的需求, 跟踪新技术的崛起, 并维护复杂且不断发展的数据基础设施.

一个熟练的数据工程师使用正确的工具可以支持10多个ETL开发人员, 反过来, 启用100个数据科学家. 因此,数据工程师的需求上升了50% Datanami使其成为美国增长最快的就业岗位之一.

什么是数据科学家?

A data scientist is a person 谁 analyzes 和 extracts insights from data sets to assist organizations in decision-making 和 solving complex problems. 如果Netflix昨晚向你推荐了一部完美的电影,可能会有一位数据科学家参与其中. IT部门可以启用 数据科学家的自助数据获取 而业务分析师将更好地保持对数据的控制.

来自最高管理层的数据管理

的 importance of data to the organization is increasingly reflected in the C-suite 与 Chief Data Officers 和 Chief Information Officers leading enterprise-wide digital 变换ation 和 platform st和ardization initiatives. 他们的参与通常集中在合规、成本控制和可靠性目标上.

数据工程生态系统和工作流

数据集成工具

什么是数据集成工具?

数据集成工具 基于软件的工具会吸收吗, 巩固, 变换, 并将数据从源移动到目标, 执行映射, 转换, 还有数据清理. 最终,他们将数据整合到一个“单一来源的真相”目的地,例如 数据湖 or 数据仓库. 这允许使用一致、可靠的数据 分析和 商业智能.

如何识别好的数据集成工具?

随着数据、源系统和目标的爆炸,数量 数据集成解决方案 近年来,这些技术的创新成倍增加. 的 本地 ETL (提取、转换和加载)以前的解决方案无法处理今天的倍数 数据源、复杂的转换、混合和多云环境以及 实时数据 需要. 

幸运的是,这里不缺新产品 数据集成平台 在那里. 找到他们很容易,就像查看网站一样 G2的人群 用户评论或分析师评估 Gartner®魔法象限™ 数据集成工具. 正如你将在2021年的魔力象限的市场概述部分发现的那样, “市场领导者继续输给较小的供应商.“在电子游戏厅, we believe this is because of a second important point that section makes: “DataOps 需要 to be supported as an emerging discipline.”

对数据工程时代的思考

因此,您已经获得了潜在供应商的列表,以及来自分析师和随机评论者的意见. 但你怎么知道什么是最好的 数据集成工具 是为了您的业务和数据集成吗 用例(s)? 

当你选择 数据集成平台,有一些重要的考虑因素需要考虑:

  • 什么 类型的数据 将会在你的 数据管道?
  • 这些数据将如何处理?
  • 数据将从哪里来,流向哪里?

数据工程时代的数据集成工具考虑

选择数据集成工具时,有一些重要的考虑因素需要考虑:

  • 你的数据管道中会有什么类型的数据?
  • 这些数据将如何处理?
  • 数据将从哪里来,流向哪里?

结构化、非结构化和半结构化数据

电子游戏网址大全从你需要整合用于分析的数据类型开始, 机器学习, 和人工智能工作负载.

结构化数据 组织在电子表格或关系数据库中,如SQL. 所有数据都有一行和一列来定义其含义. Mapping the “company” column in one database to the “companyname” column in another is pretty straightforward. 结构化数据经常被转换,然后整合、存储和定期刷新 用于分析和报告的数据仓库或数据集市.

非组织性数据 缺少有助于排序的组织结构的行/列类型. 例如, 一连串的推特评论可能包含你的品牌名称, 但是你的品牌名称并没有被推特定义为“公司名称”. 的re is no way to logically map the 推特 stream contents to a database 和 calculate the number of mentions of your br和 name on 推特. 您并不想映射来自推特的每个单词(想象一下)!). 你只关心那些提到你公司的推文. 不是转换所有来自推特的数据,而是将其流到一个 数据湖 并将机器学习应用于它.

半结构化数据 有一些逻辑和层次结构,但没有关系数据库那么多. 例如, an electronic medical record may use an industry st和ard XML format 与 a structure to indicate patient name, 诊断, 等.,但信息不在行和列设置中.

您的企业可能会以各种方式使用所有这三种类型的数据, 甚至把它们组合在一起, 哪个国家会有自己的挑战. 你的数据团队需要熟悉需要什么类型的数据,何时以及如何处理这些数据.

批处理、微批处理和流处理

接下来,需要考虑处理数据的速度. 您的分析系统和应用程序能够等待数据吗? 还是需要立即采取行动?

批处理数据 processing allows you to do a one-time data migration or to run your data 转换 periodically on a defined dataset. ETL developers use bulk processing to gather 和 变换 datasets to be queried by analytics systems. 例如, 在晚上批量处理餐馆的订单可以很好地支持每周, 每月, 或季度财务和人力资源报告.

Micro-batch处理 允许更小的数据集被更频繁地处理. This approach allows data to be used for immediate feedback 和 automated responses 与out the always-on of streaming data. A truck carrying a shipment of potatoes to the restaurant might have a sensor that sends a batch of GPS data to the 数据湖 every 5 minutes. 如果卡车抛锚了, 餐厅会在几分钟内收到警报, 但不是在卡车停下来的那一刻.

流处理 从源到目标的数据流是否始终处于打开状态, 例子包括客户交互, 传感器数据, 网站点击量, 语音助手, 摄像机的输入, 和更多的. 如果电子游戏网址大全的餐厅开始接受在线订单,推荐引擎可能会使用事件 流处理 建议用薯条配奶昔. 推迟一天提交建议简直太迟了.

Or let’s say the corporate entity that owns the franchise provides real-time point of sale data services to 1000 different shops worldwide 与 a 99.SLA 99%正常运行时间. 如果设备出现故障或故障,IT团队将立即收到警报, 甚至更好的, 在满足某些条件时预测失败.

或者这里有一个自然语言处理的例子:“嘿,Siri,从麦当劳点一大杯奶昔.“你要薯条配奶昔吗??”

数据被称为现代企业的燃料, 但一个更好的类比可能是一家企业生存所需的空气. 数据不仅仅是帮助企业成长和前进, it is so embedded in every aspect of business delivery that business continuity depends on the reliable, 连续的数据流.

内部部署、云、多云和混合架构

云计算的兴起改变了数据处理的“位置”. 的 availability of on-dem和 processing 和 计算能力 in the cloud has shifted data storage 和 investment from 本地 data centers to cloud service providers.

本地 指现场搭建和维护的数据中心. 对于大型, 全球性组织, 驻地可能跨越国家和地理边界, 这代表了硬件方面的重大投资, 软件, 人, ,甚至是建筑物. 隐私, 安全, control 和 compliance have all played a role in why companies continue to invest 和 maintain 本地 data infrastructures. 如今,许多公司都在寻求转移部分(如果不是全部的话)员工 将工作负载转移到云.

云架构 允许公司快速启动, 为他们使用的东西付费, 并将数据中心的维护负担转移给供应商. 云基础设施提供商, 亚马逊网络服务(AWS), 微软Azure, 谷歌云平台 和其他人, 允许公司在“租用”的基础设施上运行工作负载,而无需构建或维护基础设施. 创新服务可用于实现数据仓库等工作负载, 数据的湖泊, 数据处理, 分析和搜索技术. Pay-as-you-go 和 subscription models mean incremental payments instead of massive capital investments. Cloud data platforms have become the go-to infrastructure for new companies 和 departments 与in organizations.

的 shift to the cloud accelerated in 2020 与 the massive social 和 macro-economic disruptions caused by the global p和emic. 数字化转型势在必行 许多公司现在都在混合基础设施中混合使用预制服务和云服务.

AWS、微软Azure和GCP主导着公共云服务提供商类别, 雪花数据云云数据平台 提供一种新的方法. 结果就是选择. 您不必再被多年前做出的基础设施决策所束缚. 只要您的工作负载可以迁移,您就可以根据自己的需求选择最佳的优化平台. 事实上,许多组织越来越多地发现自己拥有一个多平台, 多重云架构.

高德纳研究使用混合云条形图

According to a Gartner Research Circle Survey: “nearly half of respondents indicated that their data management is both 本地 和 in a cloud service provider (CSP)- hybrid cloud.”1 电子游戏网址大全相信,这意味着您的数据集成工具必须同时适用于这两者, 并在您的所有数据管道中提供可见性.

1 Gartner Inc .., “理解云数据架构:混合云、多云和互联云“Adam Ronthal, Donald Feinberg, 2020年5月27日.

GARTNER是GARTNER, Inc .的注册商标和服务标志. 和/或其在美国的附属机构.S. 在国际上也是如此,在这里是经过允许使用的. 保留所有权利.

从数据集成到数据工程

作为数据类型, 处理类型, 和基础设施扩大, 数据集成的“方式”已经变得几乎不可知. 会议室IT基础架构地图的时代已经成为历史. 对于一个人或团队来说,它太复杂、太多样化了,无法绘制和跟踪. 每一次改动 数据结构、数据语义或数据基础设施 在这样一个复杂、相互连接、不可知的系统中,是否存在潜在的故障点或机会点.

This is why the modern data platform designed for data engineers depends on smart 数据管道s that abstract away the “how” of implementation so you can focus on the what, 谁, 数据在哪里. 的电子游戏厅 数据工程平台 is dedicated to building the smart 数据管道s needed to power DataOps across hybrid 和 多重云架构s. 你可以 构建您的第一个数据管道电子游戏厅数据收集器 免费.

回到顶部

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. 隐私政策