HPE Aruba如何通过迁移到AWS现代数据架构优化成本和性能 大数据博客
- 2
HPE Aruba供应链如何通过迁移至AWS现代数据架构来优化成本与性能
关键要点
HPE Aruba通过在AWS上构建现代数据架构实现了供应链管理的自动化。该方案增强了可见性、可预测性,并改善了客户体验与可持续性。采用AWS的技术,HPE Aruba成功集成来自多个数据源的信息,显著提升了决策的及时性与准确性。这篇文章共同撰写者包括Hardeep Randhawa和Abhay Kumar,来自HPE。
HPE Aruba Networking前称Aruba Networks是总部位于加利福尼亚州圣克拉拉的Hewlett Packard Enterprise惠普企业子公司,专注于安全和网络解决方案。HPE Aruba在有线、无线以及网络安全领域处于行业领先地位。2015年,惠普收购了Aruba Networks,使其成为拥有一系列下一代网络接入解决方案的无线网络子公司。
Aruba提供访问点、交换机、路由器、软件、安全设备及物联网IoT产品等硬件,其庞大的库存需要广泛的供应链管理,以便采购零件、生产产品并进行全球分配。这个复杂的过程涉及供应商、物流、质量控制和交付。
本文介绍了HPE Aruba如何通过在AWS上采用现代数据架构,重新设计并部署他们的供应链管理数据解决方案。
传统解决方案面临的挑战
随着需求的不断增长,Aruba迫切需要建立一个复杂而强大的供应链解决方案,以帮助他们扩展业务、增强可见性、提高预测能力、提升客户体验并推动可持续发展。为了实现现代、可扩展、韧性强、安全和成本高效的架构,他们选择AWS作为可信赖的合作伙伴,原因在于AWS提供了一系列低成本、可扩展且可靠的云服务。
HPE Aruba通过承诺采用最前沿的技术并不懈追求质量,设计了以云为基础的跨功能供应链工作流和分析工具。该应用程序支持定制工作流程,使需求和供应规划团队能够协作、规划、采购及完成客户订单,并通过基于角色的操作与管理报告和仪表板追踪完成指标。该方案还包括建立行业标准的集成数据仓库,提供单一真实数据源、实时运营报告、数据质量监控、全天候帮助台及财务预测和供应可用性预测。整体而言,这一新方案使HPE团队能够基于角色访问10个全规模的商业智能BI仪表板及超过350个报表视图,涵盖需求与供应规划、库存及订单管理、SKU仪表板、交易管理、案件管理、待办清单视图和大交易追踪。
解决方案概述
本文描述了HPE Aruba如何自动化其供应链管理管道,从将数据从不同数据源迁移到集中式的Amazon Simple Storage ServiceAmazon S3存储,构建数据仓库于Amazon Redshift上,发布层则利用第三方BI工具和基于ReactJS的用户界面。
下图展示了解决方案架构。
接下来,我们将详细介绍图中的关键组成部分:
源系统数据迁移区域分布编排文件处理数据质量检查归档已处理文件复制到Amazon Redshift运行存储过程UI集成代码部署安全与加密数据消费最终步骤1 源系统
Aruba的源库包括来自AMER、EMEA和APJ三个不同运营区域的数据,以及来自多个来源的全球WW数据管道,如SAP S/4 HANA、Salesforce、企业数据仓库EDW、企业分析平台EAPSharePoint等。数据源涉及150多个文件,包括每个区域的1015个必需文件,以xlxs、csv、dat等多种格式进行摄取。Aruba的数据治理政策要求他们使用一个集中工具,安全且高效地审查所有来源文件,确保其合规性,然后才可将其导出出HPE环境。为此,Aruba首先将相关文件复制到集中式的本地暂存层。
2 数据迁移
Aruba选择使用AWS Transfer Family进行SFTP,以便安全且高效地将文件从本地暂存层传输到基于Amazon S3的落地区域。AWS Transfer Family与其他AWS服务无缝集成,自动化传输,并确保数据通过加密和访问控制得以保护。为防止重复复制问题并维护数据完整性,Aruba定制了这些数据传输作业,确保先前的传输完成后才复制下一组文件。
3 区域分布
Aruba平均每天将大约转移100个文件,总大小在15至2 GB之间。每周的文件加载在每个周一和每月初的数据量会有所增加。这些文件遵循相同的命名模式,每个文件名后附带一个由系统生成的时间戳。每个文件以一对形式到达,伴随有一个CSV格式的尾部元数据文件,包含文件的大小和名称。该元数据文件在处理阶段后续用于读取源文件名称。
源数据包含来自三个不同操作区域及一个全球管道的文件,这些文件需要按当地时间处理。因此,分离文件并为每个区域运行独立的管道是有必要的,以提高容错性。为此,Aruba使用了Amazon S3事件通知。每个文件上传到Amazon S3时,Amazon S3 PUT事件便会调用AWS Lambda函数,该函数按照区域将源文件和元数据文件分发,并加载到相应的区域落地区域S3桶中。为了将文件映射到相应的区域,该Lambda函数使用存储在Amazon Aurora PostgreSQL兼容版中的区域到文件的映射配置表。
4 编排
下一个需求是为数据管道建立编排,以无缝实施必要的逻辑,从源文件中提取有意义的数据。Aruba选择使用AWS Step Functions来编排和自动化其提取、转换与加载ETL流程,按固定的计划运行。此外,他们还使用AWS Glue作业来编排验证工作并通过数据仓库移动数据。
通过结合使用Step Functions与Lambda及AWS Glue,Aruba实现了自动化编排,缩短了云解决方案的部署时间,在可能的情况下重用本地代码库。之前,Aruba的本地数据管道是通过Python脚本进行编排的,因此,将现有脚本与Lambda及Step Functions和AWS Glue相结合帮助加速了在AWS的部署。
5 文件处理
每个管道在当地时间早上500运行后,数据会进一步验证与处理,然后移动到同一S3桶中的处理区文件夹。未能通过验证的文件将被移动到拒绝区S3桶目录。以下文件验证由Step Functions工作流程调用的Lambda函数执行:
Lambda函数验证与相应源数据文件配对的尾部文件是否存在。当每对完整文件到达区域落地区域时,Step Functions工作流程将视为源文件传输完成。通过读取元数据文件,文件验证函数会检查区域落地区域S3桶中落入的文件名称和大小是否与HPE本地服务器上的文件匹配。6 数据质量检查
当文件落入处理区时,Step Functions工作流程调用另一个Lambda函数,将原始文件转换为CSV格式,随后进行严格的数据质量检查。最后验证的CSV文件被加载到temp原始区S3文件夹中。
数据质量DQ检查通过存储在Aurora PostgreSQL表中的DQ配置进行管理。部分DQ检查的示例包括重复数据检查、空值检查和日期格式检查。DQ处理通过AWS Glue作业进行管理,这些作业由Step Functions工作流中的Lambda函数调用。DQ流中还整合了多种数据处理逻辑,例如:
基于标记的去重对于特定文件,当Aurora配置表中管理的标记启用时,该过程将在处理数据前删除重复项。预设值替换空值类似地,预设值1或0将意味着源数据中的NULL,具体取决于配置表中设置的值。7 归档已处理文件
在CSV转换完成后,处理区S3文件夹中的原始原始文件会被归档在归档区S3桶文件夹中,保留6个月。6个月后,AWS上的文件会被删除,而HPE源系统中的原始文件则被保留。
8 复制到Amazon Redshift
完成数据质量检查及处理后,数据通过COPY命令功能从S3 temp原始区加载到Redshift做好准备的集群中的策划区。
9 运行存储过程
从策划区,他们使用AWS Glue作业,其中Redshift存储过程被编排,以将数据从策划区加载到Redshift发布区。Redshift发布区是一组位于同一Redshift集群中的不同表。Redshift存储过程负责处理并将数据加载至星型模式中的事实表和维度表。

10 UI集成
Amazon OpenSearch Service也被集成进流动中,用于通过用户界面UI发布大量通知。用户也可以通过UI与OpenSearch Service集成发送消息和发布更新。
11 代码部署
Aruba使用AWS CodeCommit和AWS CodePipeline来部署和管理每两周一次的代码发布周期,发布频率可根据需求随时增加。发布跨越四个环境开发、测试、用户验收测试UAT和生产通过DevOps原则进行部署,从而实现了对不断变化的用户需求和上游数据源变化的更短反应时间。
12 安全与加密
用户对HPE Aruba SC360门户的访问通过SSO和多因素身份验证MFA进行管理,而数据安全通过与HPE IT统一访问管理API的直接集成来保障。所有HPE本地来源与S3之间的数据管道均经过加密,以增强安全性。
苹果加速器永久免费版13 数据消费
Aruba SC360应用为HPE的其他BI/分析团队提供了“私有空间”功能,以便他们自行运行和管理数据摄取管道。这是利用了Amazon Redshift数据共享功能,使Aruba能够安全地共享对其Amazon Redshift集群中的实时数据访问,而无需手动移动或复制数据。因此,HPE内部团队可以在核心Aruba SC360数据上构建自己的数据工作负载,同时维护数据安全和代码隔离。
14 最终步骤
最终,数据被提取到发布层,该层由基于ReactJS的用户界面构成,利用Spring Boot REST API访问Amazon发布区的数据。除了来自Redshift数据仓库的数据外,OpenSearch Service表中更新的通知也被提取并加载到UI中。Amazon Aurora PostgreSQL用于维护配置值,以填充UI。为了构建BI仪表板,Aruba选择继续使用其现有的第三方BI工具,因为该工具在内部团队中熟悉且被广泛使用。
结论
在这篇文章中,我们展示了HPE Aruba供应链如何成功通过在AWS上采用现代数据架构,重新设计并部署了其数据解决方案。
这一新方案帮助Aruba集成了来自多个来源的数据,同时优化了成本、性能和可扩展性。这也使得Aruba供应链的管理团队能够获得深入且及时的见解,以便作出更好的决策,从而提升客户体验。
要了解更多关于构建现代数据解决方案的AWS服务,请参考AWS公共文档并关注AWS大数据博客。