navicat时间字段自动更新导致数据错误

本文分享了一次爬虫数据处理的教训,由于未正确设置数据库更新逻辑,导致历史帖子的创建时间被错误地更新为当前时间,最终不得不重新爬取和预处理数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近爬虫,因为数据量比较大,所以分批次爬取的,每批次之间会有重叠。

INSERT INTO questions(question_id, content, author, created_time, answer_count)
            VALUES(%s, %s, %s, %s, %s)
            ON DUPLICATE KEY UPDATE answer_count=VALUES(answer_count)  

如果重复爬取,只更新回答数。

几十万数据爬完了并且处理完了,才发现,每次更新记录的时候, created_time字段自动更新为当前时间(我吐了)。然后零几年的帖子,创建时间都变成了2020年……只能重新爬数据重新预处理。
根据当前时间戳更新是默认勾选的,记得取消
真是让人心肌梗塞……

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值