千呼万唤始出来,clickhouse终于更新了开窗函数,赶紧用起来
但是row_number()刚用上,就测试发现不对了,后来到官网仔细一看,果然,数据还是在数据块上排序,不是在所有数据中排序的。

可以参照我的另一篇讲neighbor函数的文章,意思是差不多的。
clickhouse踩坑:neighbor函数结果和预期不一致
只需要使用group by 函数等,将数据从各个数据块中提取到内存中即可
举个例子:
原SQL
select co1,col2
,row_number() over(PARTITION by col1 order by col2 desc)r1
from table1
settings allow_experimental_window_functions = 1
正确SQL:
select co1,col2
,row_number() over(PARTITION by col1 order by col2 desc)r1
from
(
select col1,col2
from table1
group by col1,col2
)
settings allow_experimental_window_functions = 1
文章指出了Clickhouse更新的开窗函数row_number()存在数据块排序的陷阱,导致结果可能与预期不符。解决方案是通过GROUPBY子查询确保数据在内存中全局排序。这样可以得到正确的row_number()结果。
1400

被折叠的 条评论
为什么被折叠?



