跳到主要内容

数据摄取:工具、类型和关键概念

如何从数据的起点获取数据,使其发挥作用

支持实时分析的智能, 智能应用程序, 机器学习从数据开始. 大量的数据! 从任何地方获取数据,使您的数据团队能够将其用于创新和增长, 从数据摄取开始.

什么是数据摄取?

数据摄取是将数据从一个源移动到一个着陆区域或一个对象存储区的过程,在那里它可以用于特别的查询和分析.  A 简单的数据摄取管道point of origin,对其进行清理,然后将其写入到 destination

为什么数据摄取如此重要?

数据吸收帮助团队快速前进. 任何给定的数据管道的作用域都被故意缩小, 为数据团队提供大规模的灵活性和敏捷性. 一旦设置了参数, 数据分析师和数据科学家可以轻松地构建单个数据管道,将数据转移到他们选择的系统中. 数据摄取的常见例子包括:

  • 从Salesforce转移数据.com到数据仓库,然后用Tableau进行分析 
  • 从Twitter信息源获取数据,用于实时情绪分析
  • 为训练机器学习模型和实验获取数据

现代数据集成始于数据摄取 

数据工程师使用数据摄取管道来更好地处理数据业务需求的规模和复杂性. 在没有开发团队直接参与的情况下,大量意图驱动的数据管道在整个组织中持续运行,从而实现了前所未有的规模,以实现重要的业务目标. These include:

数据采集已经成为自助式平台的关键组成部分,分析师和数据科学家可以访问数据进行实时分析, 机器学习和人工智能工作量.

数据摄取是如何工作的

数据摄取从创建或最初存储数据的源中提取数据, 并将数据加载到目标或暂存区. 一个简单的数据摄取管道可以应用一个或多个 光转换 在将数据写入某个目标集之前对其进行充实或过滤, 数据存储或消息队列. 更复杂的转换,如连接, aggregates, 并对特定的分析进行分类, 应用程序和报告系统可以通过附加管道完成. 

作为现代数据集成的一部分的数据摄取
Data Sources

数据团队已经超越了企业数据中心的围墙. 它们越来越多地从跨业务部门、第三方和非结构化数据加载数据. 他们想要在需要的时间和地点开始数据加载. 一些常见的数据源类型包括:

数据的目的地

所有这些数据都去了哪里? 数据摄取管道可以简单地将数据发送到应用程序或消息传递系统, 或将吸收的数据存储在数据湖或云对象存储中,以便在关系和NoSQL数据库或数据仓库中使用. 共同的目标类型:

云数据迁移

随着企业业务流程转移到基于云的平台进行存储, 处理和应用, 数据摄取工作负载已经成为云迁移的必要条件. 而是将数据从竖井转移到 敏捷云数据湖 or powerful 云数据仓库,会产生一些令人不安的问题:

  • 如果您不知道数据将如何使用该怎么办? 
  • 如果数据的结构在源端改变了怎么办?
  • 如果不同的组需要相同的数据用于不同的目的呢?
  • 如果您计划的来源和目的地改变了怎么办?
  • 如果数据源或目标不在您的控制范围内怎么办? 

越来越多的数据平台可以自动化和操作数据摄入的假设, 他们就能更好地支持 对持续可靠数据的需求不断增长.  

数据摄取与数据集成

数据摄取起源于一小部分 数据集成,这是一个更复杂的过程,需要在加载数据之前让数据在新系统中可用. 数据集成通常需要从源到模式、从转换到目标的预先规范. 

数据摄取, 可能会发生一些光的转变, 例如屏蔽个人身份信息(PII), 但大部分工作取决于最终用途,并且发生在获得数据之后.

可以这样想: 

  • 数据集成包括准备数据以便在最终目的地使用的过程 
  • 数据摄取将数据传送到为响应下游需求而进行准备的地方

数据摄取可以很好地用于流数据,这些流数据可以通过很少的转换立即使用,或者作为一种收集数据(特别是大数据集)进行特别分析的方法. 通过关注数据生命周期的摄取部分, 公司已经能够加速数据的可用性 创新和增长

数据摄取的挑战

随着大数据的兴起, 云计算, 以及实时分析的需求, 数据容量显著增加,与ELT模型相比,旧的ETL流程开始减慢数据团队的速度. 

复杂性需要时间

数据工程的待办事项列表越来越长. 每当有新的数据源或业务需求出现时,从头开始构建数据管道会降低整个数据团队的速度. 

改变需要时间

对于数据工程师来说,目标系统的每一次更改或发展都会产生10-20个小时的工作. 数据摄取开始迅速和容易, 但这是因为90%的时间将花在维护和故障修复上, 需要考虑的更改 data drift. 

维护和返工需要时间

一遍又一遍地做同样的事情,加上大量的故障排除和调试,没有多少时间用于创新或开发新技术. 

数据摄取工具的类型

如果您在开始吸收数据之前不需要定义数据集成过程的严格结构, 您有一种更灵活、响应更快的方式来构建数据架构. 需要考虑几种类型的工具.

Hand Coding

获取数据的一种方法可能是手工编写数据管道, 假设您知道如何编写代码,并且熟悉所需的语言. 这给了你最大的控制, 但如果你不知道上面那些“如果”问题的答案, 您可能要花很多时间工作和重写代码.

专用工具

基本的数据摄取工具提供了一个拖放接口,带有许多预构建的连接器和转换,因此您可以跳过手工编码. 虽然这似乎是一种快速完成大量工作的方法,或使技能较低的数据消费者受益, 在达到监视和管理的极限之前,您将创建多少拖放数据管道? Plus, 你不能与你的团队或拜访你的分析师和数据科学家分享你的工作. 

数据集成平台

传统的数据集成平台在数据价值链的每一步都包含了特性. 这意味着您很可能需要特定于每个领域的开发人员和体系结构, 这使得快速移动和容易适应变化变得困难. 

DataOps方法

Applying 数据的敏捷方法, 数据管道的DataOps方法尽可能地自动化,并抽象出实现的“方式”. 数据工程师可以专注于数据的“内容”,并响应业务需求.

电子游戏厅 DataOps平台

The 电子游戏厅 DataOps平台 是否有一个端到端的数据工程平台来为业务提供连续的数据, 架构用于解决数据工程师的数据摄取问题:

  • 用一个工具为所有设计模式快速构建意图驱动管道
  • 尽可能实现自动化,使数据管道对最常见的数据漂移形式具有弹性 
  • 最小化新技术所需的过渡时间,轻松地扩展数据工程,用于更复杂的操作 

智能数据管道 抽象出实现的“方式”,这样您就可以专注于数据的内容、对象和位置. Start 构建智能数据管道 用于跨云和混合架构的数据摄取.

Back To Top

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. Privacy Policy