Doris多列分区的问题（v1.2.2）

原创

已于 2023-12-13 11:44:38 修改 · 407 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据仓库 #数据库开发 #大数据

于 2023-03-27 14:22:26 首次发布

文章探讨了一个数据库分区问题，其中分区基于日期和ID两个字段。按照分区定义，数据分配似乎首先基于日期，只有当日期不匹配时才会考虑ID。作者提到，这种分区方法可能导致ID列在某些情况下几乎不起作用，且存在一定的不合理性。经过测试和进一步学习，确认分区判断主要依赖第一列，即日期，如果满足条件则不再检查第二列，除非是区间上限的情况。

官网文档说如果Partition列有多个。分区列值会按照顺序依次比较，最终得到对应的分区。

date(DATE 类型) 和 id(INT 类型)

p201701_1000:    [(MIN_VALUE,  MIN_VALUE), ("2017-02-01", "1000"))
p201702_2000:    [("2017-02-01", "1000"),  ("2017-03-01", "2000"))
p201703_all:     [("2017-03-01", "2000"),  ("2017-04-01", MIN_VALUE))

* 数据  -->  分区
* 2017-01-01, 200     --> p201701_1000
* 2017-01-01, 2000    --> p201701_1000   
* 2017-02-01, 100     --> p201701_1000
* 2017-02-01, 2000    --> p201702_2000
* 2017-02-15, 5000    --> p201702_2000
* 2017-03-01, 2000    --> p201703_all
* 2017-03-10, 1       --> p201703_all
* 2017-04-01, 1000    --> 无法导入
* 2017-05-01, 1000    --> 无法导入

（2017-01-01, 2000）是在p201701_1000分区上。

那按照语句p201701_1000不是应该是date<=2017-02-01 and id<=1000吗？

2000比1000大，那这个分区列加上id(INT 类型) 就没意义啊，只用到date(DATE 类型)。加上id

最低0.47元/天解锁文章

5 条评论

ancientMuse 2024.01.04
前面的分区列优先级高。但如果前面的分区列介于分区的临界点，以后面的分区列为准
- 烟火一世回复ancientMuse 2024.01.22
  是这样的，我测过[face]emoji:062.png[/face]

烟火一世 2023.12.05
你明白个鬼，误导别人。那你怎么解释2017-02-01，100落到了p201701_1000。如果date匹配到了就不看第二列，它应该在p201702_2000.
- 烟火一世回复用户洋仔 2024.01.22
  楼下ancientMuse评论是对的。
- 用户洋仔回复烟火一世 2023.12.13
  请教你的高见是？