flink athenaX调研

Uber利用AthenaX处理大规模实时数据,该平台具备易用、可扩展和健壮的特点,支持SQL编写并转化为Flink作业。AthenaX的工作流程包括SQL提交、验证、编译、部署、执行及故障恢复。它使用用户自定义函数(UDF),并优化JOIN操作以提高性能。AthenaX的主要组件包括Master、Catalog和Connectors,以及用于监控和恢复的Watchdog。平台的设计旨在加速数据处理,提升用户体验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Uber 有超大量的实时数据需要分析,(路况分析,计算车辆到达需要的时间等)

有More than one trillion real-time 消息通过他们的kafka,so 他们需要一个infrastructure 并且infrastructure (平台)需要有如下特性:

(1) easily navigable(通航) by all users regardless(而不用管) of technical expertise(专门知识)

(2) scalable and efficient enough to analyze real-time events, and (3) robust enough to continuously support hundreds if not thousands of critical(危机) jobs.

athenaX运行流程step below

AthenaX’s workflow follows the steps below:

  1. Users specify a job in SQL and submit it to the AthenaX master.
  2. The AthenaX master validates the query and compiles it down to a Flink job.
  3. The AthenaX master packages, deploys, and executes the job in the YARN cluster. The master also recovers the jobs in the case of a failure.
  4. The job starts processing the data and produces results to external systems (e.g., Kafka).

支持UDF 用户自定义函数

Uber说他们经验表明 70% 流处理都可以用SQL

Select a.a , b.b from a join b on a.id = b.id

compiled 阶段 athenaX会最小化join数据量 提高性能

更快的收集和处理数据,给用户带来更好的体验

从数据中,或把数据和earning联系起来

main component: AthenaX master | catalog | connectors

design role : job catalog cluster instance(flink job)

watchdog 完成监控 fail recover

 

官方文档:https://athenax.readthedocs.io/en/latest/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值