描述
之前设置唯一索引的时候, 没有设置 unique 选项, 导致数据库中出现了重复数据。 不想 drop 掉重新拉, 就尝试了下数据的清理, 方便之后也可能会用到。
参考
链接: https://blog.youkuaiyun.com/cloume/article/details/74931998
参考了这个, 最终决定用 脚本加 命令行 手动实现。
清理脚本
import pymongo
import logging
import time
import pandas as pd
from collections import defaultdict
from all_codes import all
t1 = time.time()
# 默认是是列表的字典
error_codes = defaultdict(list)
error_date = set([])
MongoUri = "mongodb://127.0.0.1:27017"
db = pymongo.MongoClient(MongoUri)
codes = all
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.DEBUG,
filename='clean.log',
datefmt='%Y/%m/%d %H:%M:%S',
format='%(asctime)s - %(name)s - %(levelname)s - %(lineno)d - %(module)s - %(message)s')
def convert(code):
if code