碰到个问题,从一家网站抓手机名称是没事的,但是跟另一家就不同,
比如:诺基亚 8800(黑色)与诺基亚 8800,这样简单的不同,
或者:苹果 iPhone 3G 与 Apple iPhone 3G,这样的不同,
类似这样,可能对大网站来说,是要加规则,或者通过用户行为,说简单了就是从用户query和点击入手,
比如呢,用户搜索 Apple iPhone 3G,但是呢,我站内没法全部匹配到,因为没这规则,所以呢,会进行切词,
切词 后 得到 1. Apple iPhone 3G 2. Apple iPhone 3. iPhone 3G 哎,就到这了,可以找到 苹果 iPhone 3G,
那么这就形成了一次规律,就是 Apple iPhone 3G -> 苹果 iPhone 3G,
网站规模小,但是如果有若干次用户都这么做,那么就应该从这个规律上升到规则了,下次就可以不用切词直接返回,
搜素策略变为:query : Apple iPhone 3G -> 苹果 iPhone 3G 找不到 再进行上面的22切词,之类的,
那么这个仅仅是搜索的策略,我现在是入库,还需要处理么?
下次再说,O(∩_∩)O~
2171

被折叠的 条评论
为什么被折叠?



