百度搜索技术沙龙感悟
<br />对于百度索引中提供检索的数据只有百亿条,而现在每天增加的数据量已是2-3亿条,现在每一天增加的数据量是2003年一年数据的增长量.对于如此强势的增长,要对数据进行全部索引并在200-300个毫秒级返回检索结果几乎是不可能的,所以就要对数据进行优化.就好比较JVM的垃圾回收一样.数据是有时效性的,索引可以为分最新最常使用的,不常使用的,很少使用的,很老又不用的.所以可以多几个索引库,并对数据进行整理,对于时效性不强的可以向后面的索引里转移,检索时对这几个索引并发检索,最后将结果合并后返回用户.对于
原创
2010-08-14 19:20:00 ·
1018 阅读 ·
0 评论