使用 ClickHouse 可视化 Foursquare 地点数据

图片

本文字数:5939;估计阅读时间:15 分钟

作者:Alexey Milovidov

本文在公众号【ClickHouselnc】首发

图片

最近我们公司举行了一次线下全员活动,来自各地的同事齐聚一堂。每逢这样的聚会,我都会组织一次 hackathon。本次的主题是数据可视化,规则非常简单:每组有两个小时,从一个数据集中出发,基于 ClickHouse 打造一个有趣的可视化演示。我也参与了这次活动,下面是我完成的项目。

图片

数据集

本次使用的数据集是公开发布的,遵循 Apache 2.0 协议,支持免费下载和自由使用。数据集中包含各种地图上的地点信息,如商店、餐厅、公园、游乐场、纪念碑等,并附带分类、邮箱等元数据。以 ClickHouse 的处理能力来看,这个数据集规模并不大,记录数略高于 1 亿。但从类别来看,它可能是目前最大规模的此类开源数据集。

此前我曾为全球航班流量制作过一个可视化工具,实时处理超过 1300 亿条记录,因此用这个工具来处理 Foursquare 的这个“小数据集”几乎毫无压力。我决定直接复用它来进行可视化。

数据预览

想要快速预览并查询该数据集,可以直接使用 s3 表函数:

:) SELECT * FROM s3('s3://fsq-os-places-us-east-1/release/dt=2025-04-08/places/parquet/*') LIMIT 10

Row 1:
──────
fsq_place_id:        4ed7a0b89adf06cbf6d71fec
name:                Частная Бильярдная
latitude:            55.82704778252206
longitude:           37.44663365528853
address:             ᴺᵁᴸᴸ
locality:            ᴺᵁᴸᴸ
region:              ᴺᵁᴸᴸ
postcode:            ᴺᵁᴸᴸ
admin_region:        ᴺᵁᴸᴸ
post_town:           ᴺᵁᴸᴸ
po_box:              ᴺᵁᴸᴸ
country:             RU
date_created:        2011-12-01
date_refreshed:      2013-01-13
date_closed:         ᴺᵁᴸᴸ
tel:                 ᴺᵁᴸᴸ
website:             ᴺᵁᴸᴸ
email:               ᴺᵁᴸᴸ
facebook_id:         ᴺᵁᴸᴸ
instagram:           ᴺᵁᴸᴸ
twitter:             ᴺᵁᴸᴸ
fsq_c
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值