跳到主要内容

DataOps博客

欢迎改变的地方

DataOps:应用DevOps到数据

By 张贴在 电子游戏厅新闻 2018年5月18日

DevOps到DataOps的生命周期术语DataOps是“数据操作”的缩写,来自于对数据应用DevOps. 它似乎是在 2015的博客 Tamr联合创始人兼首席执行官 安迪·帕尔默. 在这篇博文中,我将深入探讨 DataOps 意味着今天, 以及企业如何可以采用其实践来创造可靠, 使用智能数据管道来解锁其数据价值的始终开启的数据流.

在2015年的职位中, Palmer认为,分析的民主化和“专为目的而建”的数据库引擎的实现创造了需求 DataOps. 除了帕尔默指出的两种动力之外,第三种动力也出现了:需要 以“需要的速度”进行分析, 根据使用情况,哪些是实时的、接近实时的,或者有一些可接受的延迟. 数据必须广泛提供, 通过更多样化的数据存储和分析方法, 并且按照消费用户或应用程序的要求快速.

推动这三种动态的是企业将其数据作为一种竞争武器,使其在许多使用点上可用和可用, 简而言之, 他们的数据使 无处不在的智慧. sql驱动的商业智能的集中学科已经被纳入到高级分析和机器学习的分散世界中. 普适智能让“百花齐放”,以便从公司的数据中获得最大的商业利益, 无论是加速产品创新, 通过卓越的运营或降低企业风险来降低成本.

数据漂移——一种需要新药的现代疾病

同样地,糖尿病是一种由于生活在富饶之地而出现的疾病, 由于新兴数据生态系统的复杂性,数据传输出现了一种疾病——数据漂移.  数据漂移 是对数据结构和语义的无休止的、意想不到的和不可预测的更改吗. 数据漂移会破坏数据管道,导致数据驱动的应用程序停止, 甚至更糟, 通过污染数据,暗中使分析无效.

数据漂移是由数据供应链的复杂性爆炸引起的. 这是…的结果 对数据源的意外更改,特别是外部数据源或管理松散的源(如系统日志). 它是由 对处理数据的基础结构的更改,比如转移到云计算.  最后,数据漂移是由 不断变化的业务需求,例如将经纬度添加到地址表中. 数据漂移发生在没有通知的情况下, 其后果将影响数据存储、下游应用程序和消费者.

遗留数据集成 拥有分析师的特权, 以及一个具有严格控制的关系图式的单一分析的“真相来源”. 数据集成类似于软件工程中传统的“瀑布式”方法——对操作系统进行清单, 构建全面的数据仓库, 然后享受它完美的光芒. 普及智能的更大胆的要求,加上数据漂移的危险,打破了这种传统的数据移动方法.  适当的响应是一个新的、敏捷的“DataOps”规则,以处理这种更加流动的环境.

敏捷宣言和DevOps

2001年,一群软件开发人员成立了 敏捷宣言,敏捷软件开发原则的宣言:

电子游戏网址大全正在探索开发软件的更好方法,通过这样做,并帮助其他人这样做.

通过这项工作,电子游戏网址大全得出以下价值:

个体和交互 超越过程和工具

工作软件 在全面的文档

客户协作 在合同谈判

响应变化 而不是遵循计划

也就是说,虽然右边的项目有价值,但电子游戏网址大全更看重左边的项目.

软件开发的传统瀑布模型有一个系统分析团队来生成需求文档, 软件架构师团队从中生成系统架构, 开发团队在此基础上编写应用程序, QA团队会测试哪一个. 每一步都可能需要数周时间, 几个月甚至几年, 在系统测试结束之前没有可用的软件. 如果进程确实导致了一个工作的应用程序, 时间往往很晚, 甚至在上线前就过时了.

敏捷方法, 与此形成鲜明对比的是, 鼓励多学科团队关注迭代开发模型. 敏捷团队由分析人员组成, 设计师, 开发人员, QA工程师,甚至用户, 近距离工作. 敏捷团队从构建最小工作应用程序开始, 尽快将其交付给用户,以便下一次迭代可以考虑他们的反馈.

敏捷性本身给软件工程带来了好处. 用迭代方法构建工作系统的重点交付了真正的业务价值——但功能系统不是终点. DevOps和DataOps则超越了系统交付 操作.

开发+操作= DevOps

DevOps将运营人员引入开发循环, 将敏捷方法的范围从交付应用程序扩展到应用程序的整个运行周期. 开发人员通过设计易于自动化的应用程序来考虑操作需求, 可伸缩性和高可用性. 它起源于亚马逊这样的互联网巨头, Facebook和Netflix, DevOps现在已经成为整个行业的标准实践.

应用DevOps to Data + Operations = DataOps

如果电子游戏网址大全在敏捷宣言中用“交付数据”代替“开发软件”, 电子游戏网址大全可以将其应用到数据工程领域. 在数据工程领域,这个术语 DataOps 描述在企业中通过数据传递价值的多学科方法.

就像DevOps带来用户一样, 开发人员, QA和运营人员一起解决软件交付的问题, DataOps将数据从业者聚集在一起,以持续地 向应用程序和业务流程交付高质量的数据. 终端用户的数据, 比如数据分析师和数据科学家, 与数据工程师和IT运维人员密切合作,交付连续的数据管道,将多个源连接到多个目的地,同时处理数据漂移的现实. 它通过使用迭代方法设计和操作从源到存储再到分析的数据移动逻辑,实现了健壮性和灵活性的结合.

电子游戏网址大全认为DataOps支持包括构建在内的数据管道的迭代生命周期, 执行和操作数据保护支持的步骤:

DevOps生命周期方法如何应用于DataOps

  • 构建 -灵活的设计拓扑, 可重复的数据流管道使用可配置的工具,而不是脆弱的手工编码.
  • 执行 -在边缘系统和自动扩展的内部集群或云环境中运行管道.
  • 操作 -通过持续监控和执行数据sla来管理数据流性能,将开发目标与操作现实联系起来.

就像DevOps把应用程序安全作为首要考虑的问题一样, 在整个过程中都要考虑, 在数据ops中,电子游戏网址大全必须这样做 保护 每个点的数据, 既有来自坏人的,也有无意中共享的敏感数据,这些数据都符合监管规定.

电子游戏网址大全来看看每个方面:

构建数据管道

任何DataOps团队的部分职责是构造集合或 拓扑结构 of 数据流管道. 数据流管道使用来自原点的数据, 哪个可能是关系数据库, 日志文件, 消息队列或任何其他数据源. 管道可以应用一个或多个转换, 充实或过滤数据, 在将其写入到一组目的地(通常是分析数据存储或消息队列)之前. 本着敏捷方法论的精神, 任何给定管道的作用域都是故意缩小的——从一个源读取数据, 选择适用的转换, 并将结果写入一个或多个目的地. 数据操作团队能够快速实现价值, 在小的增量, 而不是试图“煮沸海洋”.

完成任何有价值的事情, 许多数据流管道需要彼此连接, 直接将数据从一个输入到另一个, 或间接通过消息队列或数据存储. 随着DataOps团队构建其管道集合, 将它们组织成构成操作管理核心单元的拓扑是很自然的. 拓扑允许DataOps团队从数据的起始点开始跟踪数据的路径, 通过多种管道, 到达它的最终目的地. 这种企业视图提供了端到端可见性,并在管道运行时提供了重要的见解.

DataOps强调配置,而不是代码,最小化交付时间并最大化重用. DataOps工具允许非开发人员这样做 构建数据管道,在团队成员之间共享它们,以允许迭代开发. 管道使用开放格式存储, 允许容易的自动化和消除重复工作.

DataOps团队及其使用的工具应该能够预测数据漂移. 在某些情况下, 例如来自操作数据库的提要, 数据漂移是一种异常现象, 数据结构中任何不可预见的变化都必须标记出来以引起注意. 在其他情况下,如使用外部或半结构化数据时,数据漂移是 预期 由于上游数据源发生意外变化. 在后一种情况下,理想情况是管道自动将更改的模式传播到它们的目的地.

执行数据管道

随着DataOps团队将其管道投入生产, 它必须考虑它们能够最有效地运行的环境. 在集群上执行管道有意义吗, 或者在边缘, 在场所或公共云基础设施上?

企业通常在集群技术上已有投资,并希望获得最大的投资回报, 因此,管道可以在现有集群上本机运行是很重要的.

是否存在一个或多个基于云的数据存储? The DataOps team must take care to select data movement tools that are not tied to a single data store vendor; such tools are “free like a puppy”.  它们当然可以简化向供应商的数据存储写入数据的任务, 但是,创建锁定会使数据难以转移到另一个目的地,从而导致成本非常昂贵.

DataOps工具为团队提供了从小处开始的灵活性, 一旦证明了数据管道拓扑结构,就可以向外扩展 管理数据管道. 最灵活的工具可以从单个笔记本电脑上的探索和概念验证扩展到每秒能够处理数百万条记录的集群部署.

操作数据管道

如果电子游戏网址大全只是简单地将敏捷软件开发原则应用于数据工程, 电子游戏网址大全在这就做完了, 但是管道拓扑的“上线”事件远不是DataOps故事的结尾, 这是真正的开始. 系统部署完成后, 必须对数据管道进行监控, 测量的吞吐量和与服务水平协议相比的延迟.  理想情况下,数据值本身被有效地采样 检测数据漂移.

数据管道的自动化监控 允许DataOps团队和工具快速对变化的条件作出反应, 扩大管道以应对季节性或意外需求. 在这里,敏捷方法的迭代方面发挥了作用. 一个敏捷原则, “你不需要它”, 简称YAGNI, 反对在系统需要复杂性之前就将其构建到系统中. 数据操作团队从小做起, 构建数据管道 验证了该方法,满足初始需求, 然后循环回到构建活动,因为操作经验揭示了新的需求.

保护数据管道

数据保护在整个DataOps周期中至关重要. 至少,DataOps工具必须集成 数据存储的鉴权授权系统, 保护数据在传输过程中不受未经授权的访问和修改, 但数据保护远不止于此.

根据现行和即将出台的数据法规, 个人身份数据处理不当的成本正变得令人望而却步. 因此,DataOps工作必须使用能够检测飞行中的敏感数据的技术, 并自动删除, 在将数据写入任何分析数据存储区之前,屏蔽或以其他方式编校数据. 例如, 一个操作系统可以合理地存储客户电话号码,以满足日常业务的需要, 而是为了遵守GDPR等法规, 这种个人识别信息(PII)最好在飞机上进行屏蔽,然后再呈现给任何分析系统.

这个领域正在发生许多创新, 通过新的工具,可以自动检测和编辑数据管道中的PII. 机器学习在数据保护方面的应用有望进一步减轻DataOps团队的负担.

从DevOps到DataOps——一个不断发展的学科

与已有十多年历史的DevOps相比,DataOps还处于起步阶段. 仍然, DataOps is gaining steam; As a milestone for notoriety, 研究公司高德纳最近发布了他们的年度数据管理炒作周期 DataOps是第一次被纳入. 资深Gartner研究副总裁 Nick Heudecker在Gartner的公共博客上写了一篇支持文章 提供了高德纳当前观点的有用总结.

电子游戏厅正在构建工具,使企业能够采用DataOps方法,并通过数据以前所未有的规模交付价值. 电子游戏网址大全DataOps平台 提供团队可以用来构建、执行、操作和保护的工具 规模化的数据管道拓扑 面对数据漂移.

电子游戏厅托管第一个 2019年DataOps峰会. 要了解技术和业务从业者关于他们的DataOps实践的意见,请查看以下内容 DataOps案例研究.

接触电子游戏厅 今天欲了解更多信息,还是安排一个演示吧 电子游戏厅 DataOps平台.

回到顶部

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. 隐私政策