跳到主要内容

DataOps博客

欢迎改变的地方

如何在数小时内迁移到云数据湖

By 张贴在 工程 2020年12月1日

从本地数据湖迁移到云数据湖不需要花费数月甚至数周的时间. 与 intent-driven数据管道,您可以在数小时内将数据从Hadoop迁移到云数据湖. 在这篇博文中, 我将向您展示如何通过一种构建数据管道的更好方法将您的关注点从数据移动转移到数据价值.

电子游戏厅提供 数据迁移 到Azure、AWS、砖、谷歌等提供的许多不同的云数据湖. 事实上,电子游戏网址大全已经创建了一个库 样本数据和样本管道 来帮助你. 这 博客文章和相应的Github管道库 涵盖了一个这样的流程-如何将数据从Hadoop FS迁移到Azure数据湖存储(ADLS) Gen2使用 电子游戏厅数据收集器. 电子游戏网址大全将上传网球数据,以寻找大满贯比赛开始以来的冠军. 

一旦你建立了一个 智能数据管道 为你的 数据迁移,您可以将其复制到任何云数据湖而无需重写. 因此,将此迁移视为一次完成的操作!

迁移到云数据湖的前提条件

微软Azure帐户. 在写作的时候,你可以 创建一个免费的Azure账户. 根据 文档 (一个例子是这样的 ADLS目的地教程).

博客环境细节

在创建这个博客时,使用了以下工件:

  • 使用鼎晖6安装Hadoop FS.3.0集群
  • streamset数据收集器.18.1(使用SDC Parcel安装在上述CDH集群上)

从Hadoop到ADLS Gen2的数据管道概述

本教程创建了一个数据管道:Hadoop FS独立→表达式求值程序→场剂→ADLS Gen2 (Azure data Lake Storage Gen2).

这个博客详细介绍了这些步骤:

  1. 配置起源阶段:Hadoop FS独立
  2. 配置处理器:表达式评估器
  3. 配置处理器:场剂
  4. 配置目的阶段:ADLS Gen2
  5. 预览
  6. 在目标ADLS Gen2中运行管道并正确地验证数据地

数据处理器的用途

来自Hadoop FS的数据格式如下:

比赛,冠军,亚军
2018年,法国网球公开赛,拉斐尔纳达尔,多米尼克·蒂姆
2018年,澳网,罗杰·费德勒,马林·西里奇
2017,U.S. 开放,拉斐尔·纳达尔,凯文·安德森

期望的输出数据格式如下:

比赛,也是公开赛时代,赢家_亚军
2018年,法国网球公开赛,True,拉斐尔纳达尔-多米尼克·蒂姆
2018年,澳大利亚网球公开赛,真的,罗杰·费德勒——马林·西里奇
2017,U.S. 开,真的,拉斐尔纳达尔-凯文-安德森

因此,在起始阶段和目标阶段之间使用处理器 

  • 添加新字段 也是公开赛时代赢家_亚军
  • 删除字段赢家和runnerup

迁移到云数据湖的步骤

使用web浏览器登录Data Collector,并通过以下步骤创建数据管道.

1. 来源:Hadoop FS独立

Hadoop FS独立 origin从HDFS读取文件. 还可以使用origin从Azure Blob存储中读取数据.

配置 Hadoop FS独立 分期方式如下:

选项卡 配置名称 配置值
一般 舞台上图书馆 鼎晖6.3.0 (注意:选择适合您的Hadoop FS安装细节的文件.) 
连接 配置文件目录 hadoop-conf
文件 文件目录  / tmp / / header_tennis_data
文件 文件名称模式 *
数据格式 数据格式 分隔
数据格式 分隔符格式类型 默认CSV(忽略空行)
数据格式 标题行 与标题行

如何在数小时内迁移到云数据湖

2. 配置处理器:表达式评估器

第一个转变将是检查特定的大满贯赛事是否在开放时代举行. 网球世界的开放时代始于1968年.

因此表达式求值器有助于检查是否 YEAR in the record >= 1968 然后相应地添加一个名为 也是公开赛时代 在输出中使用True或False等值.

第二个转变是组合 赢家亚军 字段从记录转换为一个字段调用 赢家_亚军.

配置 表达式求值程序 通过以下方式:

如何在数小时内迁移到云数据湖

3. 配置处理器:场剂

下一个, 原始字段赢家和runnerup在字段移除处理器的帮助下被移除.

配置 场剂 通过以下方式:

如何在数小时内迁移到云数据湖

4. 目标阶段:Azure数据湖存储第二代

Azure数据湖存储第二代目的地将数据写入微软Azure数据湖存储第二代. 在这个博客中,这个阶段是独立使用的.

配置 Azure数据湖存储第二代阶段 通过以下方式:

选项卡 配置名称 配置值
数据湖 账户FQDN 设置合适的Azure帐户
数据湖 存储容器/文件系统  e.g. stf-gen2-filesystem(注意:设置适合您的Azure帐户)
数据湖 身份验证方法  OAuth令牌或共享密钥
数据湖 应用程序ID,认证令牌端点,应用程序密钥  如果Authentication method = Oauth Token,设置这些.
数据湖 账户共享密钥  当Authentication method = 分享d Key时,设置此参数.
输出文件 目录模板 / header-tennis-adls-gen2
数据格式 数据格式 分隔
数据格式 分隔符格式类型 默认CSV(忽略空行)
数据格式 标题行 与标题行

注意 目录模板 下面.

如何在数小时内迁移到云数据湖5. 预览数据管道

这是一个很好的方法 预览 帮助构建或调整管道的数据. 预览中显示如下:

如何在数小时内迁移到云数据湖

6. 运行管道,验证登陆云数据湖的数据

微软Azure Explorer是一个允许用户浏览来自Azure数据湖存储的数据的工具.

管道运行后,将显示一个名为 header-tennis-adls-gen2 它又包含带有迁移数据的文件.

如何在数小时内迁移到云数据湖

让电子游戏网址大全下载文件并查看下载文件的内容:

如何在数小时内迁移到云数据湖

瞧! 电子游戏网址大全已经成功地在几个小时内完成了云数据湖迁移,只需要在UI中进行简单的拖放操作和一些配置. 非常整洁的. 正确的? 因为这是一个意图驱动的数据管道, 您可以使用这个示例,甚至使用示例数据管道迁移到任意 云数据湖

样本数据管道和数据集

结论

如果你正在考虑一个云迁移大满贯(在多个云平台上获胜),那么你只需要使用电子游戏厅就可以有更多的时间观看罗杰·费德勒(Roger Federer)的比赛. 请随意探索每个阶段的更多细节,或者遵循其他阶段的流程 云数据湖迁移. 你可以了解更多电子游戏网址大全的 与微软Azure的本地集成 以及电子游戏网址大全如何 简化到AWS的迁移. 或者如何 启动你的砖项目.

您有兴趣了解更多关于云迁移的信息吗? 您愿意分享一下您在云数据湖方面的经验吗? 想听听你在那边的消息吗 电子游戏厅社区.

回到顶部

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. 隐私政策