前言
由于 MongoDB 约束性比较小,所以有时候数据库中会有很多重复的数据,特别是爬虫的数据。文档数量一旦达到一定数据量级,为了保证新插入的数据不重复,如果每次使用 update 操作感觉有点慢,倒不如一次性 insert 然后最后在使用 pipline 管道操作去重重复数据,感觉会快些,但是我没有测试过,有兴趣的童鞋可以做个测试比较一下。
MongoDB 数据情况
数据库存在重复数据,如下:
/* 1 */
{
"_id" : ObjectId("5dbaf3939642fb9adcad453c"),
"username" : "王五",
"area" : "上海"
}
/* 2 */
{
"_id" : ObjectId("5dbaf3a19642fb9adcad4549"),
"username" : "赵四",
"area" : "北京"
}
/* 3 */
{
"_id" : ObjectId("5dbaf3b89642fb9adcad4556"),
"username" : "马六",
"area" : "北京"
}
/* 4 */
{
"_id" : ObjectId("5dbaf3b89642fb9adcad4556"),
"username" : "马六",
"area" : "北京"
}
管道操作清洗重复数据
MongoDB Bash 命令:
db.getCollection('users').aggregate([
{
$group: {
_id: {
username: '$username', username: '$area'},count: {
$sum: 1},dups: {

本文介绍了一种通过MongoDB的Pipeline操作来清洗数据库中重复数据的方法,适用于大量数据的情况。作者提到,相比每次插入时检查重复,直接进行Pipeline操作可能更快。文中未提供实际速度对比测试,但鼓励读者自行测试验证。
最低0.47元/天 解锁文章
994

被折叠的 条评论
为什么被折叠?



