Clickhouse中创建生成日期序列自定义函数

最新推荐文章于 2025-05-11 02:17:43 发布

数据人阿多

最新推荐文章于 2025-05-11 02:17:43 发布

阅读量492

点赞数 6

文章标签： clickhouse

本文链接：https://blog.youkuaiyun.com/zhangtingduo/article/details/144347729

版权

背景

Clickhouse 数据库最近几年在大数据领域应用越来越广，因其卓越的性能，外加支持海量数据存储与处理，国内很多大厂都有在使用。其底层使用C++语言编写，小编在使用时，感觉可以极限压榨CPU性能，计算速度远超 Hive，应用在数据产品领域，基本没啥问题

存储的数据量，可以与Hadoop生态持平
计算性能，可以与Mysql持平

小编环境

操作系统版本与Clickhouse版本

cat /etc/redhat-release
# CentOS Linux release 7.2.1511 (Core)

clickhouse -V
#ClickHouse local version 24.7.2.13 (official build)

效果展示

提供开始日期、结束日期，生成一个日期序列，返回的是一个数组

select generateSeries_dt('2024-12-01','2024-12-07') as dts;
--['2024-12-01','2024-12-02','2024-12-03','2024-12-04',
--'2024-12-05','2024-12-06','2024-12-07']

生成日期序列自定义函数

因Clickhouse 是用C++语言编写，如果想扩展自定义函数，需要用C++来实现或借助sql方式实现，如果想使用其他语言，则只能进行桥接（把数据输出至系统，在系统中调用其他语言处理数据，然后把系统中输出的结果，拿回到clickhouse）。这里小编借助sql 方式来实现，感觉实现起来和编写python很像

利用Chatgpt的帮助，可以一步一步完成所需要的函数功能

create function generateSeries_dt as (start_dt,end_dt) -> 
(
    arrayMap(
        x -> toDate(start_dt) + x, 
        range(toUInt32(toDate(end_dt) - toDate(start_dt)) + 1)
    )
);