文章目录
各大公司实时数仓实践
一、网易实时数仓实践
此架构是基于Kudu的实时数据数仓,通过Data Stream自己写的数据采集工具来采集日志数据写入Kafka,使用NDC(类似CDC)服务可以将binlog数据推送到Kafka,通过Flink读取Kafka数据结果写入Kudu,基于Kudu构建实时数仓好处就是延迟低(毫秒/秒级);支持upsert;支持水平扩展。但是也存在一些问题,例如:突然数据量增多,基于内存会有很大的Compaction操作,会造成数据服务不可用;数据孤岛问题,Kudu很难与HDFS中的数