MongoDB聚合运算符：$median

MongoDB中$median聚合运算符及其在项目和窗口函数中的应用

最新推荐文章于 2025-12-03 08:39:01 发布

原创

最新推荐文章于 2025-12-03 08:39:01 发布 · 1.7k 阅读

CC 4.0 BY-SA版权

文章标签：

$median聚合运算符以标量值返回中位数的近似值，即第50百分位数。$median可以在$group阶段的累加器或聚合表达式使用。

{
   
   
   $median: {
   
   
      input: <number>,
      method: <string>
   }
}

$median可以在下面的阶段使用
- 可以用于$group和$setWindowFields阶段的累加器
- 可以用于$project阶段的聚合表达式
$median作为累加器时有下面的特征：
- 计算阶段中所有文档的单个结果
- 使用t-digest算法计算基于百分位数的近似指标。
- 使用近似方法来扩展大量数据。
$median作为聚合表达式具有以下特点：
- 接受数组作为输入
- 每个输入的文档计算一个结果

在$group阶段，$median始终使用近似计算方法。
在$project阶段，即使指定了近似方法，$median仍然使用离散计算方法。
在$setWindowFields阶段，工作负载决定$median使用的计算方法。
因为算法计算的是近似值，所以即使在相同的数据集上，计算出的百分位数$median返回也可能会有所不同。
重复的样本可能会导致歧义。如果存在大量重复项，百分位数可能无法代表实际的样本分布。比如在一个所有样本都相同的数据集，数据集中的所有值都处于或低于任何百分位， “第 50 个百分位”值实际上代表 0% 或 100% 的样本。

如果在$project阶段使用$median作为聚合表达式，则可以使用数组作为输入，$median忽略非数字数组值。

语法为：

{
   
   
   $median:
      {
   
   
         input: [ <expression1, <expression2>, ..., <expressionN> ],
         method: <string>
      }
}

通过窗口函数，可以计算出相邻文档移动 "窗口 "的结果。当文档通过管道时，$setWindowFields阶段：

可以在$setWindowFields阶段使用$median计算时间序列或其他相关数据的滚动统计数据。

在$setWindowField阶段使用$median时，输入值必须是字段名，如果输入的是数组而不是字段名，操作将失败。

使用下面的脚本创建testScores集合：

db.testScores.insertMany( [
   {
   
    studentId: "2345", test01: 62, test02: 81, test03: 80 },
   {
   
    studentId: "2356", test01: 60,