
Hudi
文章平均质量分 94
写轮眼之大数据
关注同名微信公众号,获取更多文章
展开
-
Apache Hudi的流批一体架构实践某宝
一、前言当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。二、 模型特征架构的演进2.1 第一代架构广告业务发展初期,为了提升策略迭代效率,整理出一套通用的特征生产框架,该框架由三部分组成:特征统计、特征推送和特征获取模型训练。如下图所示:客户端以及服务端数据先通过统一服务Sink到HDFS上基于基HDFS数据,统计特定.原创 2021-07-03 18:59:58 · 1482 阅读 · 1 评论 -
Apache 数据湖Hudi详解一
路径窄处留一步与人行;滋味浓处减三分让人尝。—《菜根谭》1. 什么是Hudi?Apache Hudi代表Hadoop Upserts anD Incrementals,管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源,HDFS上的分析数据集通过两种类型的表提供服务:读优化表(Read Optimized Table),通过列式存储提供查询性能近实时表(Near-Real-Time Table),提供实时(基于行的存储和列式存储的组原创 2021-05-09 12:00:32 · 2603 阅读 · 7 评论