跳到主要内容

DataOps博客

欢迎改变的地方

Spark ETL获得Azure HDInsight和权力BI的销售见解

By 张贴在 工程 2020年7月21日

在本博客中,电子游戏网址大全将回顾建立运行在其上的端到端ETL数据管道是多么容易 电子游戏厅变压器 执行提取、转换和加载(ETL)操作. 该管道使用Apache Spark for Azure HDInsight集群提取原始数据并进行转换(清理和管理),然后将其存储在多个目的地,以便进行高效的下游分析. 该管道还使用了Azure数据湖存储第二代和SQL Azure数据库等技术, 在权力BI中对整理后的数据进行查询和可视化.

电子游戏厅变压器是一个运行在Apache Spark上的执行引擎, 开源分布式集群计算框架, 它使数据工程师能够执行需要以批处理或流模式对整个数据集进行大量处理的转换.

管道概述

Spark ETL获得Azure HDInsight和权力BI的销售见解

管道被配置为在其上运行 Apache Spark for HDInsight 如上所示,以及它的配置细节,如Livy端点、凭证等. 作为管道参数传入.

下面是数据集和管道组件的详细信息:

  • 数据及数据来源:公司销售数据存储在大量 .CSV文件从"在Azure数据湖存储第2代存储容器中使用 ADLS代 起源.
    • 销售数据包含以下字段: ordernum、量化、地区、存储、sale日期 dep,项,unitsold, unitprice employeeID
  • 转换:
    • 字段剂: 删除 employeeIDordernum 假设它们不是分析所需要的字段 
    • 火花SQL表达式:使用Spark SQL表达式 unitsold * unitprice 计算订单收入并将结果存储在一个新字段中 收入
    • :合计总收入 地区
  • 目的地:
    • 转换数据 分区 by 地区 并储存在"清洁“区域使用 ADLS代 以Parquet格式的目的地,以便在Spark中进行高效的下游处理
    • 聚合数据存储在策划“区 SQL Azure 在权力BI中查询、可视化和创建报表的数据库目的地.

数据区湖

以下是不同数据湖带的简要概述和一些模式.

原始区

该区域以原始状态存储数据(通常是原始格式), 如JSON或CSV, 但在某些情况下,以压缩格式(如Avro或Parque)存储可能更有意义. 因为这个区域通常存储大量的数据, 需要考虑的是使用生命周期管理来降低长期存储成本. 为实例, ADLS代支持以编程方式或通过生命周期管理策略将数据移动到“酷”访问层. 该策略允许您定义一组规则,这些规则可以每天运行一次,可以分配给帐户或文件系统,也可以在文件夹级别.

清洁区

这可以看作是一个过滤器区域,它可以提高数据质量,也可以包含数据丰富. 一些更常见的转换包括数据类型定义和转换, 删除不必要的列, 通过添加新列和合并数据集来丰富数据,进一步提高洞察力的价值. 该区域的组织通常由业务需求决定——例如, 每个地区, 日期, 部门, 等.

策划区域

这是消费区,为分析而优化,而不是为数据处理. 该区域以非规范化数据集市或星型模式存储数据,最适合希望运行特别查询的分析师或数据科学家, 分析, 或高级分析. 因为与数据仓库相比,数据湖的存储成本通常更低, 将粒度数据存储在数据湖中,并将聚合数据存储在该区域中,可能会更经济有效.

管道预览

电子游戏网址大全看看在预览模式下数据、列的数据类型和转换是什么样子的.

场剂

删除分析中不需要的字段: employeeIDordernum.

Spark ETL获得Azure HDInsight和权力BI的销售见解

SQL表达式

使用Spark SQL表达式 unitsold * unitprice 计算收入并将结果存储在一个新字段中 收入.

Spark ETL获得Azure HDInsight和权力BI的销售见解

聚合器

订单总数总营收 by 地区.

Spark ETL获得Azure HDInsight和权力BI的销售见解

管道运行

管道作为Job运行. 工作 启用扩展和运行同一个管道的多个实例,就可以在底部窗格中查看作业指标.

Spark ETL获得Azure HDInsight和权力BI的销售见解

作业成功运行之后, 清理后的数据可以在ADLS代和SQL Azure目的地中使用,如下所示.

Azure数据湖存储第二代

在这里电子游戏网址大全看到,根据ADLS代目的地的配置,数据已被分区 地区. (没有显示每个文件夹中的parquet文件.)  然后可以对这些数据进行分析或用于进一步的处理 ADLS代 或者直接从Azure 砖或HDInsight中的jupiter笔记本中访问.

Azure HDInsight ADLS代上的Apache Spark 电子游戏厅变压器

SQL Azure数据库

下面显示的是数据库表 dbo.销售 这是自动创建的 电子游戏厅变压器 管道. 此表包含总订单和收入的汇总 地区.

Apache Spark上用于Azure HDInsight SQL Azure数据库的电子游戏厅变压器

权力BI

一旦如上所示,经过策划的数据在SQL Azure数据库中可用, 可以在微软的软件中进行查询和可视化 权力BI.

要开始,请打开权力BI并单击 获取数据 然后在顶部导航栏进行选择 更多… >> Azure >> SQL Azure数据库. 然后点击 连接 会显示一个连接对话框来提供连接到SQL Azure数据库的凭证.

Apache Spark for Azure HDInsight - 权力BI上的电子游戏厅变压器

连接到数据库后,导航到表(dbo.销售电子游戏网址大全的例子中,如下所示)并加载数据.

Apache Spark for Azure HDInsight - 权力BI上的电子游戏厅变压器

一旦数据被加载并且模型被创建, 权力BI使数据可视化和分析变得非常容易. 如下图所示 总订单 总营收 by 地区. 请注意, 销售 model是在权力BI的DirectQuery模式下创建的,因此像这样的报表和仪表板可以交付“接近实时”/最新的数据,而无需刷新模型. 其他方式和详细信息请参见 文档.

Apache Spark for Azure HDInsight - 权力BI上的电子游戏厅变压器

GitHub上的管道和数据集示例

如果您想要抢先开始并/或基于此管道进行构建,请下载 样品管道 和 样本数据集 从GitHub.

导入样例管道后, 更新管道参数,如, HDInsight集群细节, ADLS代信息用于加载原始/源数据,也用于存储干净的数据, SQL Azure数据库和凭据,用于存储经过策划的数据, 等. 在运行管道之前.

享受!

Summary

虽然有不同的方法来分析数据, 希望这篇博客能给你一些关于如何使用这些工具的建议,以便你能做得更好, 数据驱动的决策, 快.

了解更多关于  Azure Marketplace的电子游戏厅电子游戏厅变压器.

回到顶部

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. 隐私政策