- 博客(136)
- 收藏
- 关注
原创 ClickHouse 25.3 版本发布说明
ClickHouse 25.3 版本正式发布,本次更新带来了18项新功能🌱、13项性能优化🐣、48个bug修复🌦️
2025-04-06 23:45:00
828
原创 解锁 ClickHouse 新技能: JSON 数据性能调优,实时获取业务洞察
通过确保输入表始终小型且不受数据集规模影响,ClickHouse 能够在 任何数据规模下都保持实时 JSON 分析的高性能。
2025-04-06 23:00:00
764
原创 从 Postgres 迁移到 ClickHouse:数据建模技巧更新版 V2
Postgres CDC 让 PostgreSQL 数据高效同步到 ClickHouse,支持大规模数据的实时分析。
2025-04-06 20:30:00
932
原创 【硬核预警】神秘消失的 CPU:一次 Linux 内核调试之旅
本案例不仅让我掌握了调试技巧,更重要的是让我深入理解了 Linux 内核的底层原理。
2025-03-16 15:12:19
823
原创 ClickHouse 25.2 版本发布说明
ClickHouse 25.2 版本正式发布,本次更新带来了12项全新功能🐣、15项性能优化🥚、72个bug修复🌷
2025-03-15 17:02:15
817
原创 ClickHouse 输入格式之性能巅峰对决:最快、最高效的选择是什么?
ClickHouse 客户端会根据典型使用场景,自动选择最适合的输入格式,其中针对高吞吐量插入的客户端会优先使用 Native 格式。
2025-03-10 17:00:00
946
原创 官宣 ClickHouse Connector for Tableau 正式发布
你是否一直想用 Tableau 可视化 ClickHouse 数据?现在,官方 ClickHouse Tableau Connector 已正式发布,助你轻松实现这一目标!
2025-03-10 12:39:26
917
原创 与 ClickHouse 一起攀登冰山(Apache Iceberg)
本文字数:8411;估计阅读时间:22 分钟作者: Melvyn Peignon本文在公众号【ClickHouseInc】首发回顾 2024 年,有一项技术始终引人注目:Apache Iceberg,更广义地说,是湖仓架构。
2025-03-02 19:00:00
701
原创 面向 AI Agent 的数据分析
AI Agent 逐步成为实时分析数据库的活跃用户,这一变化正在重塑我们对数据系统的认知。虽然这一趋势尚处于早期阶段,但随着模型上下文协议 (Model Context Protocol) 的推出,以及 AI 驱动分析工具生态系统的不断扩展,数据系统的基础架构正在逐步演进,以适应这一新需求。AI Agent 正在从单纯的查询执行工具和“函数调用者”,发展为具备数据理解能力、上下文管理能力和洞察力的智能助手。这一趋势既带来了巨大的机遇,也伴随着挑战。
2025-03-02 14:34:13
1004
原创 ClickHouse 开源了 kubenetmon 开源:讲解 ClickHouse Cloud 如何传输监控数据
本文字数:13618;估计阅读时间:35 分钟作者: Ilya Andreev本文在公众号【ClickHouseInc】首发在本文中,我们宣布开源 kubenetmon——这是我们用于监控 ClickHouse Cloud 数据传输的工具。项目地址:GitHub https://github.com/ClickHouse/kubenetmon。云计算为软件团队提供了诸多优势,例如现成的基础设施组件、无限的可扩展性、高性价比等。在云成本规划中,许多企业都会精打细算计算和存储资源的使用。
2025-02-23 11:45:00
755
原创 用 BuzzHouse 填补 ClickHouse 数据库模糊测试的空白
本文字数:5651;估计阅读时间:15 分钟作者: Pedro Ferreira本文在公众号【ClickHouseInc】首发近年来,模糊测试 (Fuzzing) 已成为热门研究方向,广泛用于发现软件缺陷,包括崩溃、错误输出和安全漏洞。数据库同样是研究重点,许多专门针对数据库的模糊测试工具相继问世。ClickHouse 也积极采用模糊测试工具进行测试。
2025-02-23 10:15:00
615
原创 Warehouses:解密 ClickHouse Cloud 的计算资源分离
本文字数:6753;估计阅读时间:17 分钟作者: Dmitry Pavlov本文在公众号【ClickHouseInc】首发在现代云数据库服务中,计算资源分离 (compute-compute separation) 是一种强大的技术,它通过为特定的工作负载、用户或业务功能提供独立的计算资源,优化数据库性能和资源管理。不同于传统的资源共享模式,这种方法可以为不同类型的数据库操作(如读和写)提供专属计算实例,降低操作之间的干扰。
2025-02-22 22:05:42
890
原创 ClickHouse 25.1 版本发布说明
本文字数:12318;估计阅读时间:31 分钟作者: ClickHouse Team本文在公众号【ClickHouseInc】首发又到了每月发布新版本的时间!发布概要ClickHouse 25.1 版本正式发布,本次更新带来了🦃、在本次发布中,我们优化了并行哈希连接算法,引入了二级哈希表进行加速;在表级别新增了 MinMax 索引;改进了 Merge 表;增加了自增功能……还有更多精彩更新等你探索!热烈欢迎 25.1 版本的新贡献者!
2025-02-22 22:00:00
1237
原创 ClickHouse发起十亿JSON文档挑战,性能完胜MongoDB、ES、DuckDB和PostgreSQL等数据库
在我们的基准测试中,ClickHouse 在存储效率和查询性能方面全面超越了所有测试过的 JSON 数据存储系统。在分析型查询方面,ClickHouse 不仅更快——相比领先的 JSON 数据存储(如 MongoDB),它的速度快数千倍,相比 DuckDB 和 PostgreSQL 也是如此,并且比 Elasticsearch 快十倍以上。
2025-02-22 17:31:44
1362
原创 使用 Evidence.dev 可视化 BlueSky 数据
在本篇博客中,我们将深入解析 Evidence.dev 的独特之处,以及它在数据应用构建方面与其他工具的不同之处。按照本文的步骤,你可以高效分析 BlueSky 数据,并构建类似的仪表板来探索你的数据集。目前,我们已将该项目部署到 https://bluesky.evidence.app,你可以在这里查看 BlueSky 数据集的各种可视化结果。通常,浏览器会自动打开 Evidence 应用,如果没有,请手动访问 localhost:3000,即可看到 Evidence 的界面。
2025-02-22 15:20:20
902
原创 ClickHouse 24.12 版本发布说明
本文字数:11871;估计阅读时间:30 分钟作者: ClickHouse官方本文在公众号【ClickHouseInc】首发又到了月度版本更新的时间!发布概要ClickHouse 24.12 版本重磅发布,本次更新带来了🦃、本次版本新增了多项实用功能,包括改进 Enum 的可用性、支持 Iceberg REST 目录和模式演进、实现反序表排序、支持将 JSON 子列作为主键、自动优化 JOIN 的执行顺序等更多亮点功能!我们热烈欢迎 24.12 版本中的所有新贡献者!
2025-02-22 14:07:52
985
原创 利用高级监控仪表板解决常见数据库问题
通过这篇文章,我们了解了 ClickHouse 的高级仪表板功能,包括如何开始使用它,以及如何利用它识别和解决常见问题。无论您选择哪种部署方式,这款轻量级的监控工具都可以开箱即用。如果您倾向于使用 Prometheus 等第三方监控工具,也可以参考官方文档中的示例进行配置。此外,ClickHouse Cloud 还提供了专属的新仪表板功能,让您可以创建更丰富的可视化效果,值得进一步探索。
2025-02-22 13:53:52
571
原创 ClickHouse 官方文档:处理 JSON 数据 (2/2)
本文字数:15445;估计阅读时间:39分钟作者: ClickHouse team本文在公众号【ClickHouseInc】首发用于导入的几乎所有 JSON 格式都可以用于导出。
2025-02-22 12:27:49
1063
原创 ClickHouse 官方文档:处理 JSON 数据 (1/2)
本文字数:27902;估计阅读时间:70分钟作者: ClickHouse team本文在公众号【ClickHouseInc】首发。
2025-02-21 22:18:16
829
原创 ClickHouse 查询优化实用指南:第一部分
ClickHouse Playground 中的一个数据集是 NYC Taxi 数据集,其中包含纽约市出租车行程的详细数据。在没有进行任何优化的情况下,我们已经将这个数据集导入。以下是创建表并从 S3 存储桶导入数据的命令。为了方便操作,我们直接从数据中推断表结构。SELECT *接下来,我们先看一下 ClickHouse 自动生成的表结构。识别慢查询。
2024-12-29 22:45:12
896
原创 使用 ClickHouse 实现 Medallion 架构
本文字数:5739;估计阅读时间:15 分钟作者: PME Team本文在公众号【ClickHouseInc】首发在大规模数据工程中,高效地整理、转换和分析数据集是核心任务。Medallion 架构是一种广泛应用的数据工作流设计模式,利用分层转换方法来组织数据并提高其质量。传统上,人们使用 Spark 和 Delta Lake 等工具来实现这一流程,从原始、杂乱的数据中系统地提取出干净且高质量的数据集,供最终用户分析和使用。
2024-12-29 22:33:49
1164
原创 内部运营干货:手把手教你借助 ClickHouse 搞定产品运营分析
用户群组(cohort)指的是一组在特定时间内共享某些特征或行为的用户。通常,这些群组用于分析用户行为随时间变化的模式。对我们而言,用户群组指的是过去一个月内注册 ClickHouse Cloud 的用户。通过这些群组,我们可以跟踪并比较其参与度、激活率和转化率的趋势,与其他月度群组进行对比。虽然用户群组可以从计费和计量数据中识别,但在产品分析中也能通过简单的查询实现:SELECTuser_id,由于该结果集在分析中被频繁使用,我们将此查询转化为一个物化视图 prod_org_creations。
2024-12-29 22:30:00
1119
原创 ClickHouse 官方文档:如何使用 Grafana 分析数据【5/5】
本文字数:5226;估计阅读时间:14 分钟作者: ClickHouse官方本文在公众号【ClickHouseInc】首发是 ClickHouse 中可观测性数据的首选可视化工具。通过官方的 ClickHouse 插件,用户可以轻松集成。用户可参考这里的安装说明进行安装【https://clickhouse.com/docs/en/integrations/grafana】。
2024-12-29 22:12:17
968
原创 ClickHouse 官方文档:设计可观测性数据模型【2/5】
本文字数:46287;估计阅读时间:116 分钟作者: ClickHouse官方本文在公众号【ClickHouseInc】首发本篇为第二篇《设计数据模型》,正文如下::默认模式使用了基于的设计,这种方式是为特定的访问模式优化的。然而,您的实际访问模式可能与此不完全一致,因此需要根据需求选择主键。:用户可能希望从现有列中提取新字段,例如从列中解析出额外的信息。这可以通过使用物化列来实现,在更复杂的情况下,可以利用物化视图。实现这些功能需要对数据模型进行修改。
2024-12-07 11:00:49
868
原创 ClickHouse 官方文档:使用 ClickHouse 构建可观测性解决方案【1/5】
本文字数:3933;估计阅读时间:10 分钟作者: ClickHouse官方本文在公众号【ClickHouseInc】首发。
2024-12-07 10:31:10
1176
原创 ClickHouse 官方文档:模式设计 Scheam Design
本文字数:11241;估计阅读时间:29 分钟作者:ClickHouse官方本文在公众号【ClickHouseInc】首发设计高效的模式是提升 ClickHouse 性能的关键,这需要在多个选项之间做出权衡。最佳的设计方案取决于查询类型、数据更新频率、延迟需求和数据量等因素。本指南将介绍一些模式设计的最佳实践和数据建模技巧,帮助您优化 ClickHouse 的性能。本指南中的示例基于 Stack Overflow 数据集的一个子集。
2024-12-07 10:27:06
1177
原创 ClickHouse可观测性的故事终于完整了,基于 SQL的技术演进依然在持续
ClickHouse 早已在数据输入输出上就支持 JSON 格式,这也促成了它与可观测性工具的早期整合。用户可以通过 ClickHouse 的原生接口或 HTTP 接口发送 JSON 数据,并选择多种输出格式满足需求。这种灵活性使 ClickHouse 更容易集成 OpenTelemetry、Grafana 等工具,实现流畅的数据摄取与可视化。同时,它让用户能轻松构建自定义接口,使 ClickHouse 能适应多种可观测性应用场景。
2024-12-07 10:18:09
695
原创 ClickHouse 24.10 版本发布说明
本文字数:13817;估计阅读时间:35 分钟作者:ClickHouse Team本文在公众号【ClickHouseInc】首发又到了新版本发布的时间!本次ClickHouse 24.10 版本包含了🎁、🛷、🐛在本次发布中,clickhouse-local 更加实用,新增了复制和计算器模式。可刷新物化视图已达到生产就绪标准,远程文件支持缓存,表克隆操作也得到了简化。正如往常,我们热烈欢迎所有 24.9 版本中的新贡献者!
2024-11-10 15:54:01
1333
1
原创 ClickHouse 神助攻:纽约城市公共交通管理(MTA)数据应用挑战赛
我们在处理 MTA 数据时玩得很开心(尽量让数据清理过程更有趣!),希望我们的工作能帮助大家更轻松地进行有趣的数据分析。如果您在示例库【https://github.com/ClickHouse/sql.clickhouse.com】中创建了新的查询或图表,欢迎与我们分享!
2024-10-30 17:53:27
1096
原创 奔走相告! ClickHouse 全新构建了强大的 JSON 数据类型
本文字数:8969;估计阅读时间:23 分钟作者:Pavel Kruglov本文在公众号【ClickHouseInc】首发。
2024-10-30 17:43:06
1147
原创 超强实用技巧:使用 ClickHouse 构建实时单页应用程序
开源用户可以利用预定义 HTTP 接口将客户端与 SQL 查询解耦。此功能允许 ClickHouse 暴露一个端点,将用户传入的参数注入到预定义 SQL 查询中,并将结果返回给用户。对于简单的业务应用,这能让客户端只需调用有限的 REST API。前述访问限制和配额管理的原则同样适用于调用用户。
2024-10-29 23:54:36
1125
原创 使用 ClickHouse 的 UDF 解决语义版本的需求
应用版本通常采用语义版本控制(Semantic Versioning),版本格式为 <主版本>.<次版本>.<补丁版本>。我们可以利用正则表达式和 extract 函数来提取任何符合语义版本格式的内容,这样可以从字符串开头获取语义版本。我在 Embrace 工作,我们构建了唯一基于 OpenTelemetry 的用户中心移动应用可观测性解决方案,并使用 ClickHouse 为我们的时间序列分析产品提供支持。将语义版本重写为整数数组后,排序将符合预期,且不同长度的版本也可以正常排序!
2024-10-29 23:45:21
720
原创 基于 ClickHouse、Apache Arrow 和 Perspective 的流式实时可视化
本文字数:9053;估计阅读时间:23 分钟作者:Dale McDiarmid本文在公众号【ClickHouseInc】首发。
2024-10-29 23:37:57
860
原创 使用 ClickHouse 和 Estuary Flow 进行实时 Salesforce 分析
本文字数:2794;估计阅读时间:7 分钟作者: Estuary本文在公众号【ClickHouseInc】首发实时处理和分析数据的能力已经成为各行业企业的关键需求。ClickHouse 是一个高性能的列式数据库管理系统,与强大的数据集成平台 Estuary Flow 相结合,构建了一个能够从数百个数据源中摄取并转换数据的实时分析平台。本文将深入探讨通过 Estuary Flow 的 Dekaf 功能将这些技术无缝集成的详细过程。
2024-10-09 17:55:34
955
原创 在 10 分钟内通过 ClickHouse Cloud 查询端点给应用程序增加数据分析功能
ClickHouse 的开发速度常常令新用户感到惊喜,最近的发布周中,我们推出了许多新功能,使得使用 ClickHouse 变得更加简单。我们在开源代码库中详细记录了它的秘诀:通过使用 ClickHouse 的物化视图在插入时计算聚合,确保查询能在毫秒级内响应,从而提供快速且流畅的用户体验。希望从浏览器调用端点的用户,还可以配置允许的域的 CORS 头。目标很简单:如果用户查看的包托管在 GitHub 上,则在我们的主要 ClickPy 分析页面中添加一些简单指标,比如星标、关注、问题和拉取请求的数量。
2024-10-08 21:41:16
752
原创 我们如何构建 ClickHouse 内部的数据仓库:一年回顾的思考 【Part2】
在 DWH 中,我们不仅提供这些实时数据的原始格式,还提供其转换后的聚合状态,例如实时事件的聚合结果。对于我们的数据仓库,ClickHouse 的强大之处在于,它能轻松将实时数据与批处理报告结合,从而扩展了可查询的数据范围。例如,在增加新的数据源时,dbt 允许我们通过时间函数轻松合并不同时间导入的数据,并在数据准备好后触发后续流程。同时,随着指标的复杂性增加,原先简单的 count() 和 sum() 操作逐渐被更复杂的窗口函数和数据差异化处理所取代,这些操作还会基于外部表中的条件进行过滤。
2024-10-08 13:44:15
927
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人