袋鼠云是什么
袋鼠云是一家大数据产品供应商。他开发了一个产品叫做 flinkStreamSQL。这东西是以 Flink 为基础开发的使用 SQL 来写流式计算逻辑的产品。
FlinkStreamSQL 的开源地址
什么是插件
这里所说的插件是可以理解为自定义的语法。例如下面的 SQL:
select fact.shop_id
,shop.shop_name
from fact_stream as fact
left join dim_shop as shop
on fact.shop_id = shop.shopid
dim_shop 可能是一个 redis 为实体的 Table ,这袋鼠已经为我们实现了,现在我们可能从 HTTP 的接口拿到数据,此时的话,我们可以自定义一个 HTTP Table ,然后上面的代码不用修改。
整体的流程
编写、执行 FlinkStreamSQL 的流程如下所示:
CREATE TABLE source(
colName colType,
...
function(colNameX) AS aliasName,
WATERMARK FOR colName AS withOffset( colName , delayTime )
)WITH(
type ='kafka09',
kafka.bootstrap.servers ='ip:port,ip:port...',
kafka.zookeeper.quorum ='ip:port,ip:port/zkparent',
kafka.auto.offset.reset ='latest',
kafka.topic ='topicName',
parallelism ='