2009年03月17日 星期二 12:33
1) 存储问题,现在业内很多做搜索的公司都借鉴google的存储方案,这方面我研究不多,但据说google的大规模存储是一大亮点,号称可以无限扩充,这是一般的数据库存储无法实现的,不管是mysql, sqlserver, 当数据达到千万级的时候,做一些操作就很慢了,这会严重的影响整个搜索引擎的数据更新频率. 对于一般数据量在千万级左右的垂直搜索来说,用数据库还可以勉强应付,数据量再大,就一定要有一个好的存储方案了,一般可以简化的用大文件块加索引文件的方式,所有网页按固定大小文件块存放,同时记录该网页在文件中的偏移位置,读取时根据索引中记录的偏移量来读。
很多公司都看好垂直搜索的前景,找几个人,攒了个搜索,表面看什么都有了,但可能“内功”不好,要真正做好一个垂直搜索,很不容易,从硬件到人力都需要较大投入。 出自:www.8tops.com 时间:2007-8-28 8:38:29 发布:周凯 媒体:原创 作者:周凯 |
转载于:https://blog.51cto.com/gjbxx110/570883