现在在做一个海量网页爬取的项目,主要业务是,爬取之后要查重评分,我们有两个库,一个静态库一个动态库,两个数据库都要查重,评分后在一定分值内的数据就保存到动态库,动态库的数据,每周一次更新到静态库, 静态库的查重已经完成,问题是动态库的数据如何查重?难道要每插入一条数据就添加一条索引?这样的逻辑对么?因为要爬去5千多个网页(甚至更多),担心不停地添加插入数据到动态库,并索引会浪费资源,求大神帮忙,海量数据如何动态索引 用的Lucene,项目马上要结束了,换其他搜索引擎的话估计没时间了,如何破。。
Lucene 问题 求助海量数据动态插入数据库 生成索引并检索
最新推荐文章于 2025-01-16 09:39:14 发布