跳到主要内容

DataOps博客

欢迎改变的地方

如何在Dataproc和AutoML上加载数据到谷歌BigQuery

By 张贴在 工程 2021年2月23日

将数据加载到谷歌BigQuery和AutoML

在本博客中,电子游戏网址大全将回顾电子游戏厅变压器中的ETL数据管道, 火花ETL引擎, 接收来自纽约消防局(FDNY)存储在谷歌云存储(GCS)中的真实数据, 将其转换, 并在谷歌BigQuery中加载数据.

一旦转换后的数据在谷歌BigQuery中可用, 它将被用于AutoML训练一个机器学习模型,以预测纽约消防站的平均事故响应时间.

什么是Dataproc?

Dataproc是低成本的, 集成了云平台, 易于使用可用于批处理的托管Spark和Hadoop服务, 流媒体, 以及机器学习用例.

什么是谷歌BigQuery?

BigQuery是一个企业级数据仓库,支持使用谷歌基础设施的处理能力进行高性能SQL查询.

样本数据

数据集是通过 纽约市公开的数据 网站. 2009-2018年历史数据集包含FDNY的平均响应时间. 数据按照事件类型进行分区(False Alarm, 医疗紧急情况, 等等), 区, 以及特定月份的事件数量.

以下是样本FDNY数据:

YEARMONTH、INCIDENTCLASSIFICATION INCIDENTBOROUGH、INCIDENTCOUNT AVERAGERESPONSETIME
2009/07,所有消防/紧急事件,全市40850年,04:27
2655年2009/07,假警报,全市04:07
2009/07,医疗急救,曼哈顿,4895年,04:17
408年2009/07,医疗假警报,全市04:13
2009/07,非医疗紧急情况,曼哈顿,4446年,04:51
比较1495年2009/07,非结构火灾、全市,04:19
2009/08,所有消防/紧急事件,全市41723年,04:30

数据管道概述

将数据加载到谷歌BigQuery

数据源和数据集

  • CSV格式的数据是从GCS通过谷歌Cloud Storage (GCS)来源加载的. 从GCS加载数据, 您需要提供的只是到bucket的路径, 数据格式, 以及文件名模式.

数据转换

数据存储

  • 转换后的数据存储在 谷歌BigQuery table. 请注意:如果表不存在,则由电子游戏厅变压器自动创建.

集群类型

加载数据到谷歌BigQuery和AutoML | 数据管道预览

在运行之前 火花ETL 电子游戏厅变压器中的管道, 您可以根据配置的Dataproc集群预览管道,以检查数据结构, 数据类型, 在每个阶段验证变换. 这也是一个很好的方法 调试数据管道. 有关管道预览的更多信息,请参阅 文档.

过滤器

使用一个 过滤器 处理器电子游戏网址大全将过滤掉事件 INCIDENTCLASSIFICATION == “所有消防/紧急事件 or INCIDENTBOROUGH == “全市”.

电子游戏厅控制中心

删除未来信息

因为这是一个历史数据集,电子游戏网址大全用它来训练机器学习模型, 电子游戏网址大全需要删除在月初还不知道的信息. 在这种情况下,就是这样 INCIDENTCOUNT. 要从每个记录中删除这个字段,电子游戏网址大全将使用 场剂 处理器.

将数据加载到谷歌BigQuery

数据转换

机器学习模型中的标签或目标变量属于数字数据类型. 在本例中,的字段值 AVERAGERESPONSETIME 按以下步骤进行转换:

  • 删除”:“使用 火花SQL 表达- 替换(AVERAGERESPONSETIME”:“”、“)
  • 使用将时间转换为秒,将字符串数据类型转换为整数 火花SQL 表达- 轮((平均响应时间/ 100)* 60 +(平均响应时间% 100))

电子游戏厅管道预览

manage-smart-data-pipelines

电子游戏厅使数据工程师能够构建端到端智能数据管道. 把你的时间花在构建、实现和创新上,而不是维护、重写和修复.

数据管道执行

运行 电子游戏厅变压器 数据管道实时显示各种指标. 例如,每个阶段所花费的批处理时间如下所示. 这是开始对处理和转换进行微调的好方法.

将数据加载到谷歌BigQuery

将数据加载到谷歌BigQuery

一旦管道成功运行, 自动创建谷歌BigQuery表, 如果它还不存在, 然后将转换后的数据插入到表中. 这个数据集可以随时查询,如下所示.

将数据加载到谷歌BigQuery

AutoML

然后,存储的转换后的数据可以直接从BigQuery表导入,用于训练机器学习模型 AutoML

使用AutoML,您可以构建谷歌的机器学习功能,并创建自定义的机器学习模型.

导入数据

GCP导入数据

选择目标列

目标列GCP

训练机器学习模型

将数据加载到谷歌BigQuery

谷歌云平台

就是这样! 电子游戏网址大全从装生料开始, 将真实世界的数据传输到谷歌BigQuery中,在没有任何编码或脚本的情况下,在AutoML中创建机器学习模型!

构建您的火花ETL和ML数据管道

不用说,训练模特, 评估他们, 模型版本控制, 为模型的不同版本提供服务不是一件小事,这不是本文的重点. 也就是说, 然而, 电子游戏厅变压器可以非常容易地将数据加载到谷歌BigQuery和AutoML中.

签出这些有用的资源,并迅速开始运行您的 火花ETL数据管道. 以下是一些与机器学习相关的技术博客,你可能会感兴趣:

了解更多关于 用于谷歌云平台的电子游戏厅.

 

回到顶部

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. 隐私政策