跳到主要内容

数据质量和. 数据漂移

有什么区别,为什么这很重要?

错误的数据是一个数据质量问题. 数据不完整、不正确或全是副本. 但如果正确的数据出现在错误的列中会发生什么? 或者以无法识别的格式显示正确的数据? 这就是所谓的数据漂移. 这种情况经常发生.

这并不是说 data 漂移 还有比数据质量更重要的问题吗. 但数据漂移经常被误诊为数据质量问题,这是数据工程领域的一个问题.

考虑到这种脱节, 在下面的章节中, 电子游戏网址大全将说明数据漂移和数据质量之间的区别. 在这之前, 当电子游戏网址大全谈论数据漂移时,澄清电子游戏网址大全所谈论的是什么是很重要的. 

机器学习中的数据漂移和概念漂移

在机器学习中,数据漂移被定义为分布之间的差 培训数据和生产数据. 而这种类型的数据漂移是机器学习应用中的一个关键概念, 这不是电子游戏网址大全的重点(目前).  

In 机器学习 数据漂移仅指输入数据的变化, 而电子游戏网址大全更一般的定义是指由数据源或目的地引起的数据漂移. 

另一个术语,也来自机器学习,经常和数据漂移混为一谈,那就是概念漂移. Elena Samuylova, obviously AI联合创始人兼首席执行官 解释了最好:

当模型学习到的模式不再适用时,概念漂移就会发生.

与数据漂移相反,分布(如用户统计数据、单词使用频率等).)甚至可能保持不变. 相反,模型输入和输出之间的关系会发生变化.

从本质上说,电子游戏网址大全试图预测的事物的意义正在演变. 根据比例的不同,这将使模型的准确性降低,甚至过时.

ML之外的数据漂移是什么?

机器学习之外, 数据漂移只是对数据结构的意外和未归档的更改, 语义, 和基础设施. 这种数据漂移 中断进程并损坏数据. 

例如,从10位到12位的ID号的转换会影响到数千个应用程序. 或者IP地址格式的改变会干扰BI仪表板上的数据,几个月都无法检测到.

不同类型的数据漂移可能由以下原因引起:

  • 数据提取过程变化,即.e. 一个可以将测量单位从华氏温度转换为摄氏温度的传感器被替换 
  • 数据源模式更改
  • 数据目标模式更改

数据漂移最大的挑战不是解决这个问题, 而是快速正确地识别问题并做出反应.

常见的数据质量问题

数据漂移不同于数据质量. 它的发生与数据质量无关. 

换句话说, 即使所有输入并通过系统处理的数据都是正确的,也可能发生数据漂移. 因此,正确的数据,错误的列.

数据质量与数据是“对”还是“错”有关。. 常见的来源 数据质量问题(或数据“错误”)包括:

  • 数据输入错误.
  • 质量控制未能根除数据质量问题.
  • 创建了重复的记录.
  • 数据使用或解释不正确.
  • 关于一个对象的所有已知数据都没有集成.
  • 这些数据太旧了,不再有用了.

可以想象,数据漂移和糟糕的数据质量也会导致类似的问题. 但是你处理它们的方式却大不相同.

如何处理数据漂移?

现代企业依赖于跨许多平台的数千个专用应用程序的集成,作为其业务逻辑的主要引擎. 结果是一个具有链式逻辑的系统, 也就是说当任何一个集成系统不起作用时系统就会失灵. 

避免数据漂移的关键是偏离 数据集成 忽略集成之间关系的变化性质的过程. 相反,应该采用DataOps的实践,它假定更改是恒定的. By 建筑改变在美国,你不仅可以管理数据漂移,还可以开始利用它的力量.

你可以采取的其他策略是:

  1. 减少对自定义代码的依赖
  2. 最小化模式规范
  3. 需要完全配备仪器的管道
  4. 解耦 数据管道 从基础设施
  5. 构建意图而不是语义
  6. 承担多个平台
  7. 抽象出“如何”,专注于“是什么”
数据工程师的数据集成

使用streamset构建更改架构

电子游戏厅是 从零开始建起来 为了解决这个巨大的设计问题,可以提供以下内容:

  • 广泛的连接性和数据平台支持
  • 内置对数据源、目标和底层处理平台的理解
  • 对于复杂的数据工程具有强大的可扩展性
  • 帮助ETL开发人员的模板和可重用组件
  • 内部部署和云部署选项

通过提供一个单一的、基于云的界面,你可以 查看并管理整个基础设施, 电子游戏厅 DataOps平台 释放现代数据架构的力量.

有了正确的数据集成平台,您就可以跟上最新的创新,并将数据放到需要的任何地方. 数据仓库与数据湖问题成为一个有争议的问题. 

回到顶部

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. 隐私政策