18年的12月5号,伯克利大学的riselab开源了Confluo。作为一个多数据流实时数据分析系统,按照论文的说法,吞吐量将会比 Kafka 高 4 到 10 倍。
原文:《Confluo: Millisecond-level Queries on Large-scale Live Data》
地址:https://rise.cs.berkeley.edu/blog/confluo-millisecond-level-queries-on-large-scale-streaming-data/
github地址:https://ucbrise.github.io/confluo/
Confluo是一个开源的C++项目,目前Confluo Client API支持的语言还包含:Python,Java,包括:1)Confluo的数据结构库,支持高吞吐量日志,以及各种在线(实时聚合,条件触发器执行等)和离线(ad-hoc过滤器,聚合等)查询; 2)Confluo服务器实现,它封装数据结构并通过RPC接口公开其操作,以及C ++,Java和Python中的客户端库。
场景评估:
- 一个网络监控和诊断框架,Confluo能够在单个核心上以线速(对于10Gbps链路)执行数千个触发器和数十个过滤器。
- 这是一个时间序列数据库,与先进技术相比,Confluo的吞吐量提高了2-20倍,插入延迟降低了2-10倍,吞吐量提高了1.5倍-5倍,时间范围查询延迟降低了5-20倍时间序列数据库:CorfuDB,TimescaleDB和BTrDB。
- 一个pub-sub系统,Confluo在发布 - 订阅吞吐量