管道操作删除 MongoDB 重复数据

最新推荐文章于 2024-07-17 04:43:15 发布

原创

最新推荐文章于 2024-07-17 04:43:15 发布 · 343 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#MongoDB #Pipline #Python #PyMongo

本文介绍了一种通过MongoDB的Pipeline操作来清洗数据库中重复数据的方法，适用于大量数据的情况。作者提到，相比每次插入时检查重复，直接进行Pipeline操作可能更快。文中未提供实际速度对比测试，但鼓励读者自行测试验证。

前言

由于 MongoDB 约束性比较小，所以有时候数据库中会有很多重复的数据，特别是爬虫的数据。文档数量一旦达到一定数据量级，为了保证新插入的数据不重复，如果每次使用 update 操作感觉有点慢，倒不如一次性 insert 然后最后在使用 pipline 管道操作去重重复数据，感觉会快些，但是我没有测试过，有兴趣的童鞋可以做个测试比较一下。

MongoDB 数据情况

数据库存在重复数据，如下：

/* 1 */
{
    "_id" : ObjectId("5dbaf3939642fb9adcad453c"),
    "username" : "王五",
    "area" : "上海"
}

/* 2 */
{
    "_id" : ObjectId("5dbaf3a19642fb9adcad4549"),
    "username" : "赵四",
    "area" : "北京"
}

/* 3 */
{
    "_id" : ObjectId("5dbaf3b89642fb9adcad4556"),
    "username" : "马六",
    "area" : "北京"
}
/* 4 */
{
    "_id" : ObjectId("5dbaf3b89642fb9adcad4556"),
    "username" : "马六",
    "area" : "北京"
}

管道操作清洗重复数据

MongoDB Bash 命令：

db.getCollection('users').aggregate([
    {
   
   
        $group: {
   
    _id: {
   
   username: '$username', username: '$area'},count: {
   
   $sum: 1},dups: {