MongoDB聚合：$bucketAuto

原创

已于 2024-01-11 23:09:50 修改 · 1.4k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#mongodb #数据库

于 2024-01-11 23:08:38 首次发布

按照指定的表达式对输入文档进行分类后放入指定数字的桶中，跟$bucket不太一样，$bucketAuto可以指定分组的数量（颗粒度），$bucketAuto会根据groupBy的值和颗粒度自动生成桶的边界。

语法

{
   
   
  $bucketAuto: {
   
   
      groupBy: <表达式>,
      buckets: <数字>,
      output: {
   
   
         <输出1>: {
   
    <$accumulator 表达式> },
         ...
      }
      granularity: <字符串>
  }
}

groupBy

表达式，对文档进行分组的表达式。若指定字段路径，需要在字段名前加上美元符号$并用引号引起来，如：$field_name。

buckets

整数，32位的正整数，指定桶的数量也就是输入文档分组的数量。

output

文档，可选，指定了输出文档中除_id字段外要包含的其他字段，必须要使用汇总（累加器）表达式：

<输出字段1>: {
   
    <accumulator>: <表达式1> },
...

如果指定了输出字段，则count字段不会自动添加，需要的话要手动添加。如果不指定输出字段则默认添加一个count字段。

output: {
   
   
  <输出字段1>: {
   
    <accumulator>: <expres表达式1sion1> },
  ...
  count: {
   
    $sum: 1 }
}

每个桶文档包含：

一个桶边界下限的_id：
- _id.min字段指定了桶边界的下限（含）。
- _id.max字段指定了桶边界的上限（不含）。除系列中的最后一个桶外，该界限对所有桶都是排他性的，因为在最后一个桶中，该界限是包含的。
count字段，包含文件桶中的文件数量。如果未指定输出文档，则默认包含count字段。

granularity

可选，字符串，指定了一个字符串，用于指定首选数列，以确保计算的边界边缘以首选的整数或其10的幂次结束。只有当所有groupBy值都是数值且都不是NaN时才有效。

支持的颗粒度：“R5”，“R10”，“R20”，“R40”，“R80”，“1-2-5”，“E6”，“E12”，“E24”，“E48”，“E96”，“E192”，“POWERSOF2”。

说明

如果出现以下情况，桶数量可能少于指定数量：

输入文件的数量少于指定的文件桶数量。
groupBy表达式的唯一值数量少于指定的存储桶数量。
粒度的间隔数少于桶数。
粒度不够精细，无法将文档均匀分布到指定数量的桶中。

groupBy字段的粒度或唯一值的数量决定了文档是否能均匀分布到不同的桶。如果粒度不够，$bucketAuto阶段可能无法将结果均匀地分配到各个桶。

粒度

$bucketAuto接受一个可选的粒度参数，确保所有数据桶的边界都遵循指定的首选数列。使用首选数列可以更好地控制分组表达式中数值范围内的数据桶边界。当groupBy表达式的范围以指数形式扩展时，还可以使用首选数列帮助对数和均匀地设置数据桶边界。

雷纳数列

雷纳数列是通过取10的5次方根、10次方根、20次方根、40次方根或80次方根，然后将相当于1.0到 10.0（R80 为 10.3）之间数值的根的各种幂包含在内而得出的一组数字。

将粒度设置为 R5、R10、R20、R40 或 R80，可将数据桶边界限制为系列中的值。当 groupBy 值超出 1.0 至 10.0（R80 为 10.3）范围时，系列值将乘以 10 的幂。

R5 数列以 10 的五次方根 1.58 为基础，包括该根的各种幂次（四舍五入），直至 10。R5 数列的推导过程如下：

例如：

10 0/5 = 1
10 1/5 = 1.584 ~ 1.6
10 2/5 = 2.511 ~ 2.5
10 3/5 = 3.981 ~ 4.0
10 4/5 = 6.309 ~ 6.3
10 5/5 = 10

同样的方法也适用于其他雷纳系列，以提供更精细的粒度，即 1.0 和 10.0 之间的更多间隔（R80 为 10.3）。

E 序列

E 数字系列与雷纳数列类似，它们以特定的相对误差将 1.0 到 10.0 的区间细分为10的6、12、24、48、96或192的次方根。

将粒度设置为 E6、E12、E24、E48、E96 或 E192，可将桶边界限制为序列中的值。当 groupBy 值超出 1.0 到 10.0 的范围时，系列值将乘以 10 的幂。

1-2-5 序列

1-2-5 数列类似于三值数列雷纳数列。

将粒度设为 1-2-5，可将桶边界限制为 10 的三次根的各种幂，四舍五入到一位有效数字。

例如，以下数值属于 1-2-5 系列：0.1、0.2、0.5、1、2、5、10、20、50、100、200、500、1000 等…

2的次幂序列

将粒度设置为 POWERSOF2，限制桶边界为2的次幂

以下数字遵循2的幂序列：

2^0 = 1
2^1 = 2
2^2 = 4
2^3 = 8
2^4 = 16
2^5 = 32
…

一种常见的实现方式是，各种计算机组件（如内存）通常都遵守POWERSOF2的首选数字集：1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, …

不同粒度的比较

下面的操作演示了指定不同的粒度值如何影响$bucketAuto确定桶边界的方式。集合的_id从 0 到 99：

{
   
    _id: 0 }
{
   
    _id: 1 }
...
{
   
    _id: 99 }

不同的粒度值会被代入到下面的操作中：

db.things.aggregate( [
  {
   
   
    $bucketAuto: {
   
   
      groupBy: "$_id",
      buckets: 5,
      granularity: <granularity>
    }
  }
] )

下表中的结果显示了不同的粒度值如何产生不同的桶边界：

粒度	结果	说明
无粒度	{ “_id” : { “min” : 0, “max” : 20 }, “count” : 20 }{ “_id” : { “min” : 20, “max” : 40 }, “count” : 20 }{ “_id” : { “min” : 40, “max” : 60 }, “count” : 20 }{ “_id” : { “min” : 60, “max” : 80 }, “count” : 20 }{ “_id” : { “min” : 80, “max” : 99 }, “count” : 20 }
R20	{ “_id” : { “min” : 0, “max” : 20 }, “count” : 20 }{ “_id” : { “min” : 20, “max” : 40 }, “count” : 20 }{ “_id” : { “min” : 40, “max” : 63 }, “count” : 23 }{ “_id” : { “min” : 63, “max” : 90 }, “count” : 27 }{ “_id” : { “min” : 90, “max” : 100 }, “count” : 10 }
E24	{ “_id” : { “min” : 0, “max” : 20 }, “count” : 20 }{ “_id” : { “min” : 20, “max” : 43 }, “count” : 23 }{ “_id” : { “min” : 43, “max” : 68 }, “count” : 25 }{ “_id” : { “min” : 68, “max” : 91 }, “count” : 23 }{ “_id” : { “min” : 91, “max” : 100 }, “count” : 9 }
1-2-