福特用亚马逊云和Iceberg获实时洞察

福特用亚马逊云和Iceberg获实时洞察

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Apache Iceberg, Connected Vehicles Data, Real-Time Insights, Apache Iceberg, Data Lake Modernization, Scalable Data Processing]

导读

在互联汽车时代,汽车制造商利用实时、数据驱动的洞察来提升客户体验并提高运营效率至关重要。本次会议探讨了福特与亚马逊云科技的合作,开发了the Event Store,这是福特交通移动云(TMC)的一个关键组成部分。该平台每天处理来自超过2000万辆车辆的4 TB实时数据,提供关于OTA更新、车辆指令和控制以及遥测的洞察。福特战略性地采用亚马逊云科技服务,使用Apache Iceberg构建了PB级数据湖,改善了数据管理和分析,同时满足低延迟要求,将SLA缩短了50%。

演讲精华

以下是小编为您整理的本次演讲的精华。

在快速发展的车联网领域,利用实时数据洞见已成为提升客户体验和优化运营效率的重中之重。在亚马逊云科技 re:Invent 2024活动上,一场引人入胜的会议揭示了汽车巨头福特如何通过在亚马逊云科技平台上利用Apache Iceberg来释放实时洞见的力量。会议伊始,亚马逊云科技高级解决方案架构师VJ Tope强调了车联网在通过远程启动、冬季预热车辆等移动应用程序实现远程操作方面的重要性。一项快速调查显示,当天只有少数与会者使用过移动应用远程启动车辆。

亚马逊云科技高级分析师Yanni Ambassa深入探讨了现代数据湖的演进,强调了Apache Hudi、Apache Iceberg和Delta Lake等开放表格式的出现。她透露,在短短一年内,Apache Iceberg’s的终端用户数量增长了惊人的81%,行业巨头如Netflix、Airbnb和Adobe都采用了其功能来现代化和构建大规模大数据分析平台。Yanni强调,Apache Iceberg’s广泛采用是由于其在为数据湖提供经济高效、可扩展的解决方案方面的卓越表现。

阐述了Apache Iceberg在车联网平台中的优势时,Yanni强调了其ACID合规性,确保了数据完整性和一致性。她举了一个例子,当汽车客户从数百万辆车收集了PB级数据,并且需要插入或更新遥测数据时,Apache Iceberg可确保数据一致性,防止由于系统故障或网络问题而导致损坏数据进入车辆安全系统。

Yanni进一步阐述了Iceberg的模式实施和演进能力,可以无缝适应数据结构变化,而不会中断现有数据。例如,当需要向车联网平台添加新的遥测数据或功能时,Iceberg可以随时间处理模式变化,而无需修改历史数据。

可扩展性和性能也被强调为关键优势,Iceberg能够熟练处理PB级数据量。Yanni举了一个例子,客户每天可以从100万辆车中产生1至数TB的数据,平均每辆车产生10盎司的数据。Iceberg提供了支持PB级数据的可扩展性,同时能够处理每天TB级的数据峰值,而不会影响下游用户。

福特Connectivity Cloud可观测性平台开发负责人Uma Maheshwara Gupta随后分享了福特在构建EventStore(一种用于车联网平台可观测性需求的数据湖解决方案)的实际经历。他概述了福特的车联网平台,该平台实现了车辆与云端的双向通信,管理着全球超过2000万辆车的庞大车队。该平台支持诸如接收轮胎压力、燃料液位、里程表读数等遥测信号、通过空中下载软件更新,以及远程锁车、解锁、启动和停止车辆等关键功能,后者在冬夏季节预热或冷却车辆时使用量很大。

正如Uma所解释的,EventStore收集并分析来自各种工作流程(包括遥测、远程功能和连接流程)产生的各种事件。最初使用亚马逊云科技无服务器技术(如Glue和Athena)和Hive表格式构建,随着平台的发展和更多数据管道的加入,EventStore面临着可扩展性挑战。这些挑战体现在数据处理延迟、查询体验下降、存储和计算成本增加以及数据老化问题。Uma举了一个例子,一个流程每秒产生100万条消息,导致可扩展性复杂化。

为解决这些问题,福特着手进行了两个阶段的优化之旅。第一阶段,他们专注于优化清洁区域,解决S3文件列表瓶颈,并用Spark原生UDF替换自定义UDF。最关键的是,福特迁移到了Apache Iceberg,这带来了显著的性能改进,将查询时间缩短了80%,并节省了大量S3成本。Uma分享了一个例子,在Hive格式下需要1分钟39秒的查询,在迁移到Iceberg后仅需12秒,提升了80%。这是通过利用Iceberg的元数据层快速定位基于分区列的相关文件实现的,而Hive表格式在查询规划时难以定位文件。

在第二阶段,福特正在积极适应流处理框架,以支持流和批处理两种用例。这涉及在EMR集群上运行Spark作业,直接从数据生产者读取数据并写入Iceberg以支持实时用例,同时在S3中维护原始数据备份,以备将来处理和功能开发之需。

Uma分享了一个引人注目的例子,福特的生产工程团队在事件故障排查和影响分析(如确定中断影响的车辆数量)时,严重依赖EventStore数据。对于这些时间敏感的场景,团队无法等待10分钟以上的数据可用时间。通过采用流处理方法,福特旨在提供一种同时支持流和批处理的解决方案,确保关键用例的实时数据可用性。

整个会议中,演讲者们强调了利用实时数据洞见来推动车联网领域客户体验和运营效率的重要性。福特在亚马逊云科技上使用Apache Iceberg的经历体现了,拥抱尖端技术可以释放新的可能性,克服可扩展性障碍,为提高可观测性、优化运营和提升客户满意度铺平道路。

随着汽车行业不断发展,利用车联网实时洞见的能力将变得越来越关键。福特在亚马逊云科技上成功实施Apache Iceberg证明了创新与合作的力量,为数据驱动的洞见塑造车联网移动景观奠定了基础。

下面是一些演讲现场的精彩瞬间:

演讲者强调,联网车辆可实现远程操作,例如在冬季远程启动和预热车辆,这些功能可通过移动应用程序控制。

7801d8ded01ca1e7610fca296e3a02e4.png

亚马逊云科技 IoT平台支持关键车辆功能,如遥测数据采集、空中远程升级以及远程控制功能,如锁车、解锁和在极端天气条件下远程启动以获得舒适性。

e2b6047c958a1debaa409b2bf43a7044.png

由亚马逊云科技 Serverless技术驱动的统一平台,具有基于Grafana的可视化功能,用于监控和跟踪来自各种数据源的关键绩效指标。

5d81da509de480f4c5bdb00c7236e0a5.png

演讲者描述了Event Store解决方案的初始范围和成功,导致要求将其他工作流程纳入其中。

cee61c8a2b164a23547b746bdae52c36.png

演讲者概述了一种两阶段的方法来优化他们的解决方案,首先在不改变架构的情况下优化清洁区域,然后通过使用EMR基础架构进行流处理来扩展平台。

a90f7326071b0c761e3a87f4f9124056.png

由于在高吞吐量数据摄取期间生成了大量小文件,Athena面临S3速率限制问题,突出了数据工程中常见的小文件问题。

4e8eb3db0558ca250ec1a840ed53caad.png

演讲者强调将原始数据存储在S3中以备将来处理或开发新功能的重要性,从而实现数据备份和未来可用性。

655f61856dbd7fc2067ce9ff87ad6c70.png

总结

在互联汰车时代,实时数据洞见对于提升客户体验和改善运营效率至关重要。作为领先的汽车公司,福特着手利用Apache Iceberg在亚马逊云科技上为其互联汰车平台EventStore解锁这些洞见。

福特的EventStore收集并分析来自不同工作流程(如遥测、远程功能和连接流程)产生的各种事件。最初,由于数据量高,他们面临可扩展性挑战,导致数据处理延迟、查询性能下降、存储和计算成本增加以及数据老化问题。为解决这些挑战,福特采取了两阶段方法:优化现有的批处理管道,并使用亚马逊云科技服务(如EMR)适应流处理。

通过迁移到Apache Iceberg,福特取得了显著改善。Iceberg的ACID合规性确保了数据一致性,模式实施和演进能够无缝处理数据结构变化,其可扩展性和性能能力支持PB级数据和TB级日常摄取,而不会影响下游用户。迁移导致查询执行时间缩短80%,并通过高效文件压缩实现了大幅节省成本。

展望未来,福特计划进一步增强EventStore,将流处理框架并入现有的批处理管道。这种混合方法将满足实时用例需求,实现更快的数据可用性,并支持流式和批量处理功能,最终为福特的生产工程团队提供及时的洞见,以实现事件管理和影响分析。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值