
本文字数:4073;估计阅读时间:11 分钟
作者:Mark Needham
审校:庄晓东(魏庄)
本文在公众号【ClickHouseInc】首发
在处理包含大量列的数据集时,我们通常希望在其中的一部分列上做聚合计算。
如果,不得不手工键入所有要操作的列,那就会相当的繁琐,所以我很高兴地了解到:ClickHouse具有允许动态列选择的功能。

导入NYC出租车数据集
我们将使用NYC出租车数据集,特别是2023年1月的黄色出租车数据。我们将下载该月的Parquet文件,然后启动ClickHouse Local实例并将其导入:
./clickhouse local -m
CREATE TABLE trips ENGINE MergeTree
ORDER BY (tpep_pickup_datetime) AS
from file('yellow tripdata Jan 2023.parquet', Parquet)
select *
SETTINGS schema_inference_make_columns_nullable = 0;
我们可以运行以下查询查看表的模式:
DESCRIBE TABLE trips
SETTINGS describe_compact_output = 1;
┌─name──────────────────┬─type──────────┐
│ VendorID │ Int64 │
│ tpep_pickup_datetime │ DateTime64(6) │
│ tpep_dropoff_datetime │ DateTime64(6) │
│ passenger_count │ Float64 │
│ trip_distance │ Float64 │
│ RatecodeID │ Float64 │
│ store_and_fwd_flag │
ClickHouse:动态列选择与数据分析的强大工具,

本文介绍了如何在ClickHouse中利用动态列选择功能,通过正则表达式快速筛选、聚合和操作NYC出租车数据集,展示了灵活的列操作,如选择、函数应用和列替换,以简化大规模数据分析过程。
最低0.47元/天 解锁文章
3093

被折叠的 条评论
为什么被折叠?



