MongoDB百万级数据去重

MongoDB去重实战

最新推荐文章于 2024-07-12 06:34:22 发布

原创

最新推荐文章于 2024-07-12 06:34:22 发布 · 1.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#mongodb

打开navicate，新建查询，先看一下集合中是否有重复的数据

db.集合名.aggregate([
{$group:{_id:'$字段',count:{$sum:1}}},
{$match:{count:{$gt:1}}}
],{allowDiskUse:true})

下面是一个小测试：

原始集合中的数据

存在重复，使用以下代码去重：

 db.getCollection('集合名').aggregate([
    {
        $group: { _id:'$字段名',count: {$sum: 1},dups: {$addToSet: '$_id'}}
    },
    {
        $match: {count: {$gt: 1}}
    }
	],{allowDiskUse: true}).forEach( //（使用forEach循环根据_id删除数据）
    function(doc){ 
        doc.dups.shift(); 
        db.getCollection('集合名').remove(
            {
                _id: {
                    $in: doc.dups
                }
            }
        ); 
    }
)

其中，对于大批量数据处理，一定要有{allowDiskUse:true}，表示的是允许利用磁盘空间，否则会出现内存不足的情况。

1、对使用aggregat