搜索引擎的搜索奥秘与架构解析
1. 搜索查询的洞察
1.1 查询特征与研究价值
搜索查询存在多种特征。一些类别在不同时段、不同季节的受欢迎程度有所不同,像节假日相关类别就有明显的季节性效应。而且很多查询存在拼写错误,还有不少查询直接是 URL,这表明用户想通过搜索引擎访问网站,而非在浏览器地址栏输入。
从长期查询日志进行研究很有价值。可以观察单个用户查询随时间的演变以及与其他查询的关联,比如“咖啡”和“茶”的查询关联,能反映用户兴趣相关性。还能通过追踪查询随时间的流行度变化,了解用户兴趣的变迁,这些信息对科学研究有重要意义。
1.2 查询日志的数据使用与隐私问题
搜索引擎日志对研究网页搜索者的模式至关重要,但由于隐私问题和数据资产许可协议,多数数据集不公开。2006 年 8 月 4 日,美国在线(AOL)发布了一份包含 65 万多用户在三个月内 2 亿条查询详情的日志文件用于研究。尽管用户被用唯一编号匿名化,但查询词仍泄露了很多信息,甚至包含社保号码等个人识别数据。8 月 7 日,AOL 因侵犯隐私将日志撤下,但在此期间日志已被镜像到多个网站可下载。AOL 为此道歉,解雇了发布日志的研究人员及其主管,一个月后还设立了首席隐私官职位。这一事件引发了对查询日志匿名化的研究,尽管存在争议,研究人员仍在对其进行分析。
1.3 搜索引擎查询语法的作用
使用高级查询语法有其独特价值。Jansen 研究了高级搜索选项对搜索引擎返回的前十个结果的影响,考虑了布尔运算符“AND”和“OR”、短语匹配(用双引号括起短语中的关键词)以及加号运算符“+”(如“+ 国际象棋”表示每个结果网页必须包含“国际象棋”一词
超级会员免费看
订阅专栏 解锁全文
1492

被折叠的 条评论
为什么被折叠?



