情景:抓取其他网站数据到自己网站的数据库中,当有客户搜索数据的时候,及时从其他网站更新数据到自己的数据库库
老设计:将客户搜索的title 存入到数据库中,根据title 进行搜索,此时会导致多次重复情况。 在程序中进行处理,存数据前先读取判断。此方法一时会有读取操作,而是在数据库的结构设计商依然无法避免 title重复的情况
新方法:将表的主键设定为 title + time 联合主键 ,这样重复的数据就不存在了。其中time可以设定为当天,也可以设定为当前时间的前后一个小时,半个小时等等。
本文探讨了在抓取其他网站数据并存储到本地数据库的过程中遇到的问题及解决方案。原有设计中,通过简单存储搜索标题的方式导致了数据重复,进而提出了采用“title+time”作为联合主键的新方案来避免重复数据的产生。

329

被折叠的 条评论
为什么被折叠?



