做百度的朋友很多对淘宝搜索比较陌生,同为搜索淘宝与百度等也有的异曲同工之处。淘宝搜索引擎算法模型和百度、谷歌等主流搜索引擎的算法模型机理相似:按网页的重要性和相关性给网页计算一个分数,然后进行排序。相关性是指搜索关键字与网页内容的关联程度,从前只能机械检查关键词密度和分布情况,现正逐渐实现语义性检查;重要性是指网页权重(权威而重要),理论上,网页的相关性外链越多、外链平台的权重越高,这个网页也就越重要。
作为网购平台,淘宝搜索引擎算法模型还必须符合网购特征。以下是淘宝搜索算法总监青峰介绍的六大特征因子:
1、文本的相关性:关键词和商品的匹配,匹配的程度,是否重要词的匹配,匹配词之间的距离等,都可能影响相关性。比如搜索“小鸭子洗衣机”的时候, 一个商品的中心词是洗衣机的要比卖洗衣机配件商品的相关性高,小鸭子连在一起的相关性要比“小”和“鸭子”分开时候的相关性高等。同类相关匹配,我们做站时选词也应注意
2、类目热点:淘宝数据的一个重要特质是每个商品都挂靠在类目属性体系下面,每个商品都做了一个很好的分类。在搜索过程中,同一搜索词的大量用户行为数据很容易聚焦到相应的热点类目,比如“手机”的搜索行为会集中到手机类目,而不是手机配件类目。这就是一个聚合的过程,我们做网站时可以参考
3、图片质量:图片是电子商务网站非常重要的一个数据,图片是否精美吸引人,图片上是否有各种各样的“牛皮癣”,和商品匹配度等都很大程度上影响着用户的点击和购买决策。这就是图片相关性原则
4、商品质量:每个商品都有不同的质量,商品的描述真实性,是否物美价廉,受人欢迎的程度等。这是淘宝刷单、刷评论之所以如此流行的一个重要原因。事物总有两面性,在反应商品同时,也产生一些负面的东西。
5、作弊因子:主流搜索引擎需要处理关键词堆砌、垃圾链接、网页重复等作弊手段,电子商务搜索也面临同样的情况,比如商品关键词堆砌,重复铺货,重复开店,广告商品引流等,再比如商品特有的问题如价格作弊,交易作弊等,需要利用统计分析或者机器学习来做异常行为,异常规律的发现和识别并运用到排序中。这个现在不建议做,有些商品堆的词不知所谓,不适合用户阅读。
6、公平因子:淘宝的商品很丰富,每个搜索词下都有足够多的商品在竞争,需要在相似质量的情况下让更多的商品和卖家有展示的机会,而不是像网页搜索一样是一个相对静态的排序,照成商品点击和展示的马太效应。类比效果,买东西人们最爱的。
类似的与商品、卖家、买家、搜索词有关的特征因子还有很多,排序模型的建立机制是把各种各样不同的特征因子组合起来,给最终关键词到商品的相关性评分,搜索相关性越高分数也就越高,排序就越靠前。只用其中的一到两个特征因子,已经可以对商品做一些最基本的排序。参与排序计算的特征因子越多,排序结果越符合用户需求。这种算法有着其复杂的运算过程,我们只需知道其原便即可
青峰指出,建立算法模型之后,还需要对模型进行评估,一般分为线下的评估和线上的评估。线下评估重点考察搜索相关性,从用户在搜索框输入关键词到需求获得满足,这之间经历的过程越顺畅越便捷,搜索相关性就越好。线上评估重点考察搜索流量和转化率,尽量满足用户的搜索和购买需求。
了解了淘宝搜索的运行机制,更容易对宝贝进行优化排名
本文引自《祈雨其雨》,版权归原作者所有。