搜索引擎查询全解析:从分布到趋势的深度洞察
1. 查询频率分布
查询在搜索引擎中的呈现方式多样,平均长度较短。然而,查询的分布情况如何呢?有人可能认为,由于可能的表述方式众多,不同查询的出现频率会有所不同,且查询频率分布相对均匀。但实际上,所有关于这一主题的实证研究都表明,搜索查询频率的分布是高度偏斜的。也就是说,很少有查询被频繁提交,而大量查询则很少被提交。这种分布也被称为信息计量分布,在许多其他情境中也能发现,例如人口收入分布,但在信息领域,这种分布通常更为极端。信息计量分布的术语因上下文而异,根据情况,它们被称为幂律或长尾。
为了更直观地理解查询频率的分布,我们来看一个具体的例子。以一项研究中使用的实际查询分布为例,总共3046万条搜索查询按查询频率排序,然后测量为获得10%的搜索量所需输入的不同查询数量。结果显示,仅16个查询就占了10%的搜索量,这些查询均为导航查询,如“facebook”和“ebay”。而在最后一个区间,即不频繁的查询,同样占10%的搜索量,却有643393个查询。具体数据如下表所示:
| 区间 | 累计查询数量 | 区间内不同查询数量 |
| — | — | — |
| 1 | 3049764 | 16 |
| 2 | 6099528 | 134 |
| 3 | 9149293 | 687 |
| 4 | 12199057 | 3028 |
| 5 | 15248821 | 10989 |
| 6 | 18298585 | 33197 |
| 7 | 21348349 | 85311 |
| 8 | 24398114 | 189544 |
| 9 | 27447
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



