别再说查询慢了！我只用一个配置把老板的“你怎么这么慢“变成了“你怎么这么快“

原创已于 2024-11-28 09:01:38 修改 · 1.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #缓存 #大数据 #数据分析

于 2024-11-25 12:10:40 首次发布

Doris 同时被 2 个专栏收录

29 篇文章

订阅专栏

大数据

28 篇文章

订阅专栏

别再说查询慢了！我只用一个配置把老板的"你怎么这么慢"变成了"你怎么这么快"

Doris SQL Cache：让查询飞一般的快
调优技巧与实战案例

“这是一个关于速度与激情的故事…
每个数据分析师都经历过那种焦虑的时刻：深夜，办公室里只剩下键盘敲击的声音，眼睛紧盯着屏幕上的进度条，等待查询结果加载。就在这时，老板的消息突然弹出：“报表怎么还没好？客户等急了！”
谁说查询优化就一定要改写复杂的SQL？谁说提升性能就必须堆硬件？
今天，我要告诉你一个堪比"速度与激情"的黑科技 - Doris SQL Cache。
它像F1赛车的氮气加速系统，按下按钮，瞬间提速！不信？有位同学就用它把15秒的查询响应时间降到了0.5秒，老板笑得合不拢嘴…
别着急，先泡杯咖啡，听我慢慢道来这项Cache科技的有趣故事。”

[tu]

Doris SQL Cache：让查询飞一般的快

在某一个寒冷的清晨，小张刚走进办公室，打开电脑准备开始一天的工作。突然，他收到了老板的紧急消息：

“小张，昨天的销售数据分析报表怎么这么慢？客户等了好久才看到数据！”

小张挠了挠头，打开Doris管理后台，仔细研究起来。他发现每次查询都要重新计算，即使是相同的查询也不例外。这时，他想起了一个神奇的功能 - Doris SQL Cache，是 Doris 提供的一种查询优化机制，可以显著提升查询性能。它通过缓存查询结果来减少重复计算，适用于数据更新频率较低的场景。

通过开启SQL Cache，第二次查询时间从原来的15秒直接降到了1秒以内！老板看到改进后的效果，露出了满意的笑容。

SQL Cache工作机制

[tu]

当查询请求发送到Doris，SQL Cache就像一个智能管家，它会记住查询的每一个细节：SQL文本、表的版本、分区信息，甚至用户变量。这些信息组合起来形成一个独特的身份标识，就像每个人独一无二的指纹。

BE节点则像图书馆的书架，通过一致性哈希算法，将查询结果整齐地存放在内存中。FE节点则充当着管理员的角色，它知道每个"书"放在哪个"书架"上，需要时可以快速找到。

内存管理的艺术

SQL Cache使用了巧妙的内存管理策略。BE节点上的缓存似一个弹性的气球，可以根据需要自动伸缩。当内存占用超过设定阈值时，系统会优先清理最久未使用的缓存，就像图书馆定期清理无人问津的旧书一样。

FE节点采用弱引用机制存储缓存元数据，当内存紧张时，垃圾回收器会自动释放这些数据，就像公寓管理员在空间不足时，会请走一些临时居住的客人。

性能监控与优化

监控SQL Cache的性能就像给汽车做体检。通过HTTP接口，我们可以随时查看缓存的命中率、内存占用等关键指标。：

在 FE 的 HTTP 接口 http:// ${FE_IP}:$ {FE_HTTP_PORT}/metrics 会返回两个相关指标：

# 代表已经把 1 个 SQL 写入到缓存中
doris_fe_cache_added{type="sql"} 1

# 代表命中了两次 SQL Cache
doris_fe_cache_hit{type="sql"} 2

# 注意
以上指标统计的是命中次数，只增不减，当 FE 重启后从 0 开始统计。

在 BE 的 HTTP 接口 http:// ${BE_IP}:$ {BE_HTTP_PORT}/metrics 会返回相关信息：

# 代表当前 BE 的内存中存在 1205 个 Cache
doris_be_query_cache_sql_total_count 1205

# 当前所有 Cache 占用 BE 内存 44k
doris_be_query_cache_memory_total_byte 44101

# 注意
不同的 Cache 可能会存放到不同的 BE 中，因此需收集所有 BE 的 Metrics 才能得到完整信息。

精准定位问题

SQL Cache失效并不可怕，关键是要找到原因。就像医生看病一样，我们要通过各种"症状"来诊断，缓存失效原因一般包括以下几点：

表/视图的结构发生了变化，例如执行了 drop table、replace table、alter table 或 alter view 等操作。
表数据发生了变化，例如执行了 insert、delete、update 或 truncate 等操作。
用户权限被移除，例如执行了 revoke 操作。
使用了非确定函数，并且函数的评估值发生了变化，例如执行了 select random()。
使用了变量，并且变量的值发生了变化，例如执行了 select * from tbl where dt = @dt_var。
Row Policy 或 Data Masking 发生了变化，例如设置了用户对某些表的部分数据不可见。
结果行数超过了 FE 配置的 cache_result_max_row_count，默认值为 3000 行。
结果大小超过了 FE 配置的 cache_result_max_data_size，默认值为 30MB。

通过这些检查，我们就能快速找到问题所在，并采取相应的优化措施。

调优技巧与实战案例

记得有一次，小张接到一个棘手的需求：分析过去一年的用户行为数据。这个查询涉及大量数据，需要复杂的多表关联，每次执行都要十几分钟。让我们看看他是如何运用SQL Cache来解决这个问题的。

首先，让我们创建一个架构优化图：

[tu]

精准调优四部曲

小张首先检查了现有的配置，发现几个问题：

SHOW VARIABLES LIKE '%cache%';

BE节点的内存设置过小：

query_cache_max_size_mb = 64  # 默认值偏小
query_cache_elasticity_size_mb = 32

立即调整为更合理的配置：

-- 当 Cache 的内存空间超过 query_cache_max_size_mb + query_cache_elasticity_size_mb 时，  
-- 释放最近最久未使用的 Cache，直至占用内存低于 query_cache_max_size_mb。  
query_cache_max_size_mb = 256  
query_cache_elasticity_size_mb = 128

另外还可以在 FE 中配置，当结果行数或大小超过某个阈值时，不创建 SQL Cache：

-- 默认超过 3000 行结果时，不创建 SQL Cache。  
ADMIN SET FRONTEND CONFIG ('cache_result_max_row_count'='3000');  
  
-- 默认超过 30M 时，不创建 SQL Cache。  
ADMIN SET FRONTEND CONFIG ('cache_result_max_data_size'='31457280');

接着优化查询语句，将频繁变化的时间函数替换为日期范围：

-- 优化前
SELECT * FROM user_behavior WHERE create_time >= NOW() - INTERVAL 7 DAY;

-- 优化后
SELECT * FROM user_behavior WHERE dt >= DATE_SUB(CURRENT_DATE(), 7);

案例实战：大促数据分析

双十一期间，电商平台需要实时监控各个商品类目的销售情况。这类查询具有明显特点：

查询频率高
数据量大
多维度聚合

小张采用以下策略：

1.预热关键查询

-- 提前执行热点查询
SELECT 
    category_id,
    SUM(sales_amount) as total_amount,
    COUNT(DISTINCT user_id) as buyer_count
FROM sales_detail
WHERE dt = CURRENT_DATE()
GROUP BY category_id;

2.设置合理的缓存参数

-- 增加缓存结果上限
ADMIN SET FRONTEND CONFIG ('cache_result_max_row_count'='10000');

3.监控缓存效果

-- 检查缓存命中情况
curl http://${FE_IP}:${FE_HTTP_PORT}/metrics | grep doris_fe_cache

优化效果：

查询响应时间从平均15秒降至0.5秒
CPU使用率降低40%
内存使用平稳，无明显波动

踩坑解惑

小张在优化过程中也遇到过一些典型问题：

缓存忽然失效？

检查发现是因为使用了CURRENT_TIMESTAMP函数，导致每秒都会生成新的缓存。改用CURRENT_DATE后问题解决。

缓存命中率低？

原来是查询中包含了ORDER BY RANDOM()，这种非确定性函数会导致缓存失效。改用固定的排序规则后，命中率提升到95%。

运维最佳实践

持续监控是确保SQL Cache高效运转的关键：

建立监控看板，实时展示：

缓存命中率
内存使用情况
查询响应时间分布

设置告警阈值：

命中率低于80%告警
内存使用超过90%告警
响应时间超过阈值告警

定期清理：

-- 周期性清理过期缓存
ADMIN SET FRONTEND CONFIG ('expire_sql_cache_in_fe_second'='86400');

琢磨了这么多SQL Cache的玄机，你是否也想到了自己系统中可以优化的地方？别着急，先在测试环境试试水。记住，调优如同煮茶，火候要恰到好处。

别再说查询慢了！我只用一个配置把老板的“你怎么这么慢“变成了“你怎么这么快“

别再说查询慢了！我只用一个配置把老板的"你怎么这么慢"变成了"你怎么这么快"

Doris SQL Cache：让查询飞一般的快

SQL Cache工作机制

内存管理的艺术

性能监控与优化

精准定位问题

调优技巧与实战案例

精准调优四部曲

案例实战：大促数据分析

踩坑解惑

运维最佳实践

1 条评论