最近爬虫,因为数据量比较大,所以分批次爬取的,每批次之间会有重叠。
INSERT INTO questions(question_id, content, author, created_time, answer_count)
VALUES(%s, %s, %s, %s, %s)
ON DUPLICATE KEY UPDATE answer_count=VALUES(answer_count)
如果重复爬取,只更新回答数。
几十万数据爬完了并且处理完了,才发现,每次更新记录的时候, created_time字段自动更新为当前时间(我吐了)。然后零几年的帖子,创建时间都变成了2020年……只能重新爬数据重新预处理。
真是让人心肌梗塞……