搜索系统算法解析
文章平均质量分 92
O-A-A
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
搜索排序多目标预估和多目标融合
搜索业务往往需要同时满足多个不同的优化目标,例如点击率、转化率、用户停留时长等单一指标难以全面衡量搜索效果。这些目标之间既存在关联性,又可能存在冲突,单独优化某一个目标可能导致其他目标的效果下降。因此,多目标预估的目标是全面建模不同目标的特征和关系,实现更精准的目标预估,从而为后续的多目标融合提供高质量的输入。此外,多目标预估还能避免单一目标带来的局限性,提高排序模型在不同业务场景下的鲁棒性和泛化性,确保搜索结果能够在多维度上平衡用户体验与商业价值,最终实现搜索系统整体效果的最大化。原创 2024-12-27 17:34:35 · 1429 阅读 · 0 评论 -
搜索系统常见指标和评估方式
搜索系统的优化离不开一套清晰、全面的指标体系,其中业务指标决定战略方向,中间指标反映执行效果。通过业务核心指标、中间过程指标和人工评估指标的结合,来量化用户满意度、系统性能和业务目标的达成情况,并以此建立从业务指标 → 中间指标 → 策略调整 → 效果反馈的完整数据闭环,实现全方位评估搜索效果,设定正确的系统优化方向。原创 2024-12-25 15:53:12 · 4858 阅读 · 0 评论 -
搜索算法概要
本文简要介绍了搜索算法流程中的关键节点和技术概要,展现搜索整体结构。在如今有关搜索领域的开源技术文章中,其算法策略百花齐放,尤其在细分方向上各有千秋。究其原因,一个角度的思考,搜索算法高度依赖产品定位、生态环境、平台支持、历史背景,作为一个复杂系统,其出发点、选择路径和目标的不同,最后导致该领域在细节上有一定差异化和多样性。不过,即使如此,在众多的搜索策略中,仍可以抽象出一些统一的方法论,且这种基础的哲学思想具有较高的指导意义,并在搜索大方向和细分领域中处处可见,影响深远。原创 2024-12-22 09:22:22 · 917 阅读 · 0 评论 -
搜索排序概要
特别的,对于搜索系统而言,Query-Doc 的相关性是决定用户体验的关键,并在粗排、精排中建模。本章节将相关性模块单独用一个篇幅介绍,粗排、精排、重排、混排分别用四个篇幅介绍。排序系统的整体定位和要求主要是基于搜索系统的核心目标,在提升用户体验、确保业务目标、以及系统可扩展性和计算效率的基础上,进行精细的排序优化。是搜索链路中的最后一个阶段,排序系统普遍采用级联架构,以此平衡效率和效果,并为业务需求提供灵活的调整空间。原创 2024-12-22 09:20:18 · 1192 阅读 · 0 评论 -
搜索排序:重排
重排 是精排后的一个阶段,主要负责在最终展示结果前对精排后的排序列表进行进一步优化和调整(微调)。重排核心目标是保证一定相关性的前提下,提高结果的多样性,从而提升用户体验,满足用户在不同方面的需求,避免搜索结果过于单一、相似和同质化,为用户提供更丰富、全面的信息。设有一组候选文档 D={d1,d2,…,dm}D = \{d_1, d_2, \dots, d_m\}D={d1,d2,…,dm},需要从中选择一组结果 S⊆DS \subseteq DS⊆D,其中每个结果 did_idi 都有一个与查询原创 2024-12-22 08:08:55 · 1033 阅读 · 0 评论 -
搜索排序:精排
精排 的核心目标是从粗排阶段筛选出的候选集内(通常是几百个到几千个候选文档),依据更加细致的相关性、用户行为、时效性等因素,对文档进行细粒度的排序,以确保最相关的文档排在前面,最大化用户满意度和点击转化率。精排模型在设计上应该使用更多的特征、更复杂的模型,并且在排序上更加注重细节和上下文的匹配。精排策略的设计上应该重点关注:特征设计对于模型的效果至关重要。根据特征来源、结构和时效性的不同,特征可以从多个维度进行划分并设计。从特征来源上看,可以分为Query特征、User特征、Doc特征、Author特征、交原创 2024-12-22 08:07:20 · 1629 阅读 · 0 评论 -
搜索排序:粗排
粗排在搜索链路中的定位介于召回与精排之间,既要承接召回的多样性,又要为精排提供足够的排序精度支撑。在设计粗排策略时,需要明确其与精排的差异化目标,从子集优质性、协作效率、覆盖性等方面入手,通过特征优化、多目标建模等手段,在效率与效果之间找到平衡点,从而最大化搜索系统的整体表现。原创 2024-12-21 17:21:48 · 1240 阅读 · 0 评论 -
搜索排序:相关性
搜索相关性衡量搜索引擎返回的结果与用户查询意图的匹配程度,是评判搜索系统质量的一个关键因素。相关性通常和搜索效率指标冲突(如点击率、转化率等),如一些为了吸引用户点击但相关性不强的文档会对用户产生误导诱发点击,当相关性模块将类似文档过滤就有可能带来搜索点击率的下降。所以相关性必须有精确标准的一套相关性分档体系,帮助搜索系统在各种维度上优化排序结果。即,相关性策略的目标需要平衡相关性和搜索效率,清楚自己的功能定位,约束搜索排序以避免过度追求点击率而忽视了用户满意度,从长远上提高搜索系统的整体质量和用户体验。原创 2024-12-21 17:10:34 · 1311 阅读 · 0 评论 -
搜索召回概要
主要围绕提高搜索系统的用户体验和业务价值,作为一个承上启下的环节,召回整体的目标要和搜索的最终目标对齐,即上下游协同发展。本章将具体介绍文本召回中的倒排召回、协同过滤召回和向量召回的实现方式,以及如何评估和优化这些召回策略。并在最后介绍如何在多召回通道下聚合多路召回结果。是整个检索流程的核心组成部分之一,其主要任务是从大规模文档集合中初步筛选出一批可能与用户查询相关的文档。原创 2024-12-21 17:01:07 · 681 阅读 · 0 评论 -
搜索召回:召回聚合
在召回模块中,各召回通道通常会通过不同的算法、模型或策略获取候选文档。由于这些召回通道目标、算法和策略的差异,它们生成的候选项通常具有不同的质量和覆盖面。召回聚合的任务是将这些候选项通过一定的方式进行加权、排序和融合,动态控制各个通道的召回量配额,确保最终的候选集合既具有足够的多样性,又能保持较高的相关性。原创 2024-12-21 16:59:15 · 1061 阅读 · 0 评论 -
搜索召回:向量召回
召回常用的损失函数是多分类的,相比于侧重局部比较、优化相对关系的Hinge Loss(如:Pairlist),交叉熵损失在训练和推理阶段可保持一致性,并使得模型具备全局比较能力。向量召回是一种基于向量空间模型进行信息检索的方法,核心思想是将查询Query和文档Doc转换为向量,通过计算这些向量之间的相似度来进行检索。向量召回通常采用双塔模型,为了实现特征交叉,一般采用 DCN、Attention等网络架构。原创 2024-12-21 16:57:26 · 3000 阅读 · 0 评论 -
搜索召回:协同过滤召回
协同过滤算法在搜索召回中的应用,能够有效利用用户行为数据建模文档之间的关系。其中最基础的应用是采用I2I的召回框架,而在引入向量表征之后,可以升级为向量检索召回相似文档。即文档之间的相似性不再依赖共现数据,而是通过向量间的距离计算,实现了从简单线性关系到复杂非线性关系的提升。在实际业务中,可以根据业务需求、资源条件和模型能力选择适合的算法策略。原创 2024-12-21 16:46:58 · 770 阅读 · 0 评论 -
搜索召回:倒排召回
倒排检索召回具有极高的检索效率,适合处理大规模文本语料。但是倒排召回仅基于词项匹配,无法捕捉深层次语义关联,另外长查询的分词可能导致稀疏性问题,降低召回效果。更多内容请点击:搜索系统算法解析。原创 2024-12-21 16:44:04 · 1138 阅读 · 0 评论 -
搜索 Query 解析
本章节将详细介绍 QP 中的重点领域:Query 切词、词权重、Query 纠错、Query 改写、类目识别、意图识别(时效性、地域性、用户名意图)等,这几个方向会采用较多的 NLP 知识,是搜索整个流程中和 NLP 技术关联最紧密的领域。是搜索链路中的关键环节,用于理解用户的查询并为后续处理(如检索和排序)提供清晰的结构化输入。它的核心任务是将用户的自然语言查询转化为系统能够理解的语义表示,并提取相关特征,为下游模块提供支持。Query解析是搜索系统理解用户需求的。原创 2024-12-21 16:39:52 · 750 阅读 · 0 评论 -
QP:意图识别
意图识别是用户检索体验中的核心环节,通过分析用户的查询内容和上下文,精准判断用户的真实需求,为后续的结果召回、排序和推荐提供有力支持。围绕不同场景,意图识别有多种维度和类型,其复杂性与丰富性决定了平台对用户需求的满足程度和交互质量。意图识别是检索技术与用户体验的结合点,其复杂性与灵活性决定了平台在多样化需求中的竞争力。无论是时效性、本地化还是用户名意图,理解用户真实需求并精准满足,有助于提升用户对平台的信任感和依赖度,增强用户粘性。总之,理解并满足用户需求始终是产品优化和技术创新的核心方向。原创 2024-12-21 16:37:19 · 1517 阅读 · 0 评论 -
QP:Query类目
类目体系在搜索系统中起到了组织和分类内容、提高搜索效率和准确性、优化用户体验、支持数据分析和管理的重要作用。通过合理设计和维护类目体系,可以显著提升搜索系统的性能和用户满意度。原创 2024-12-21 16:33:28 · 1085 阅读 · 0 评论 -
QP:Query纠错
Query纠错面对拼写多样性、复杂性性和实时性等挑战,涉及的错误类型种类繁多,不同类型的错误往往需要采取不同的纠错策略和技术。另一方面,纠错的目标比较明确,高质量的模型训练数据集很大程度上决定了纠错效果的上限。随着技术的发展,基于生成模型的纠错算法已成为主流,但也面临着算力成本和实时性等挑战。在实际应用中,需要根据具体场景和需求选择合适的技术方案。原创 2024-12-21 16:29:59 · 997 阅读 · 0 评论 -
QP:Query改写
综上,Query改写链路可以看做为一个小型搜索系统,所以搜索系统中的方法或多或少可以作为Query改写实现中的方案参考。Query改写的核心目标是通过增强查询的准确性、表达的丰富性和意图的清晰度,让系统在更大范围内捕捉和满足用户的搜索意图,从而提升整体的用户体验和检索效果。所以,在设计改写方案时,需要明确改写目标和应用场景。在评估和迭代优化中通过A/B测试和用户反馈收集以优化改写规则和模型,确保改写系统不断学习和改善。原创 2024-12-21 16:25:01 · 2294 阅读 · 0 评论 -
QP:Term改写
综上,Term改写可以抽象为以下流程,并可分为离线数据挖掘和在线模型预测两个部分,一个好的改写系统可以有效降低长尾低频Query的零少结果率和Query换词率等指标。原创 2024-12-21 16:20:07 · 1103 阅读 · 0 评论 -
QP:词权重
综上,本章介绍了词权重在搜索系统里的应用,以及词权重分档定义和标注准则,另外在算法实现上介绍了常用的文本特征和统计特征,以及相关模型设计。原创 2024-12-21 16:15:50 · 1290 阅读 · 0 评论 -
QP:Query切词
综上,本章介绍了业内搜索领域分词的常见技术方案,一个好的分词系统需要有一个结合下游应用场景的好的分词标注规范,在这个基础上才能明确分词的优化方向。此外,词粒度与召回能力紧密相关,决定了召回结果的召回量和相关性,如何在其中找到平衡点是词粒度设计的重点。互联网平台不断在汲取、创造新知识,表达方式也在不断发生变化,新词发现流程则是跟紧信息爆炸的时代的重要依靠,分词系统需要不断的维护才能保证技术指标维持在较高水准。原创 2024-12-21 16:07:34 · 839 阅读 · 0 评论
分享