跳到主要内容

DataOps博客

欢迎改变的地方

将Salesforce数据导入Amazon S3数据湖

By 张贴在 工程 2020年的11月5日

在这篇博客, 您将学习如何使用大部分API(优化处理大数据集)摄取Salesforce数据,并将其存储在Amazon Simple Storage Service (Amazon S3)数据湖中 使用电子游戏厅数据收集器 快速数据摄取引擎. 电子游戏网址大全的数据管道中使用的主要AWS服务是Amazon S3, 哪些提供了具有成本效益的存储和档案来支撑数据湖.

考虑这样一个用例,数据工程师的任务是在Amazon S3中归档所有Salesforce联系人以及他们的一些帐户信息. 演示一种连接Salesforce和AWS的方法, 我创建了一个数据管道,专门设计来促进无缝连接, 安全, 以及Salesforce和Amazon S3之间的实时数据流.

管道概述和实现

让电子游戏网址大全深入研究数据管道实现.

Salesforce的起源

使用电子游戏厅数据收集器将Salesforce数据摄取到Amazon S3数据湖

    • 可以将Salesforce源配置为使用 散装或SOAP API 并提供SOQL查询、偏移字段和可选的初始偏移来使用. 当使用大部分API时, 您可以使PK Chunking有效地处理非常大的数据量.
    • Salesforce源也能够执行a 完整或增量 按指定间隔读取.
    • 还可以将源配置为订阅要处理的通知 PushTopic,平台,或更改数据捕获 更改事件.
    • 在电子游戏网址大全的案例中, 原始联系人被配置为使用Salesforce对象查询语言(SOQL)吸收现有联系人信息 大部分API 模式.
    • SOQL 用于检索联系人- “选择Id,AccountId,FirstName,姓,LeadSource,Email FROM CONTACT WHERE Id > ‘${OFFSET}’ Order By Id”
    • 有关其他配置的详细信息,请参见 文档.

Salesforce查询处理器

将Salesforce数据导入Amazon S3数据湖

    • 该处理器被配置为对Salesforce执行查找,以检索其他信息和 丰富的数据 然后再存储到Amazon S3中.
    • 特别是基于 AccountId 与接触关联,它正在检索 AnnualRevenue, AccountSource, 评级 的账户.
    • 有关其他配置的详细信息,请参见 文档.

场处理器戴面具的人

将Salesforce数据导入Amazon S3数据湖

    • 此处理器配置为 PII面具 (联系人的电子邮件地址),然后在Amazon S3存储数据.
    • 有关其他配置的详细信息,请参见 文档.

模式发生器处理器

将Salesforce数据导入Amazon S3数据湖

    • 此处理器配置为 自动生成Avro模式 基于联系人记录的结构.
    • 这样就可以在 压缩(Avro)格式 在Amazon S3中节省成本的存储.
    • 有关其他配置的详细信息,请参见 文档.

Amazon S3的目的地

使用电子游戏厅数据收集器将Salesforce数据摄取到Amazon S3数据湖

    • Amazon S3被配置为以压缩的、 Avro 格式.
    • 它还配置为使用 服务器端加密(SSE) 保护和安全 写入Amazon S3的联系人数据.
    • 有关其他配置的详细信息,请参见 文档.

管道运行

使用电子游戏厅数据收集器将Salesforce数据摄取到Amazon S3数据湖

管道成功运行后,您应该看到类似于下面所示的输出. 请注意高亮显示的 AWS加密和数据格式 存储在Amazon S3上的对象.

使用电子游戏厅数据收集器将Salesforce数据摄取到Amazon S3数据湖

Summary

在这篇文章中, 你了解到公司可以通过利用和集成AWS和Salesforce之间的数据来实现价值 电子游戏厅数据收集器. AWS和Salesforce之间更紧密的集成为企业开发新的、独特的访问方式提供了大量机会, 分析, 存储他们的数据.

这里有一些资源可以帮助你开始你的云之旅:

如有其他问题和询问,请 电子游戏网址大全.

回到顶部

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. 隐私政策