squall的介绍

Squall是一个建立在Apache Storm之上的在线查询处理引擎,类似于Hive,支持广泛的SQL分析,包括简单的聚合到复杂的UDF连接谓词。它由EPFL DATA实验室的贡献者积极开发,支持SQL查询处理连续数据流、全面的历史状态计算以及基于时间窗口的无限数据流语义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Github squall  给出来的介绍是 An streaming / online query processing / analytics engine based on Apache Storm

Squall一个建立在storm之上的在线查询处理引擎,类似于Hive 提供批处理在Hadoop上的SQL语法,Squall在Storm上执行在线处理的SQL查询。

Squall支持广泛的一类SQL分析,从简单的聚合到更先进的UDF加入谓词和负载自适应调整

它是由从EPFL DATA实验室几个贡献者积极开发的,正在不断发展,目前支持以下:

SQLSelect-Project-Join查询处理连续数据流

全面完整的历史状态计算必要的近似查询处理在线聚集

基于时间窗口无限数据流的语义(正在进行中)

Theta joins:复杂的连接谓词,包括不等式,band,和任意的UDF连接谓词。这给出了一个更全面的支持和灵活的数据分析。例如,Hivetheta joins和响应用户的请求。

Continuous load balance and adaptation to data skew.(正在进行中

吞吐率高达数百万元/秒和毫秒16机集群的延迟。可扩展的大型集群设置

核心处理能有效运作有限的内存资源通过高效的基于磁盘的数据结构和索引

保证:至少一次或最多一次的语义。不支持一次语义但它是计划

弹性:缩放根据负载。(正在进行中)

Consider the following SQL query:

SELECT C_MKTSEGMENT, COUNT(O_ORDERKEY)
FROM CUSTOMER join ORDERS on C_CUSTKEY = O_CUSTKEY
GROUP BY C_MKTSEGMENT


我们提供几种方式运行查询

1、squall的声明的接口(这是配备了基于成本的优化器)支持SQL直接查询。

2、Storm命令接口支持在线分布式查询计划(全码)如下:

Component customer = new DataSourceComponent("customer", conf)
                            .add(new ProjectOperator(0, 6));
Component orders = new DataSourceComponent("orders", conf)
                            .add(new ProjectOperator(1));
Component custOrders = new EquiJoinComponent(customer, 0, orders, 0)
                            .add(new AggregateCountOperator(conf).setGroupByColumns(1));

Detailed documentation can be found on the Squall wiki.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值