基于神经网络的搜索意图预测技术解析
研究背景
当顾客输入查询"防水女鞋"时,她是在寻找通勤时能保持双脚干燥的办公鞋,还是计划在阿巴拉契亚山脉进行为期一周的徒步旅行?大多数产品发现算法寻找查询与产品之间的相关性,但最佳匹配可能因使用上下文(如"通勤"与"徒步")而有显著差异。
研究方法
在ACM SIGIR人类信息交互与检索会议的一篇论文中,我们提出了一种新的基于神经网络的系统,用于从客户查询中预测使用上下文。例如,从查询"阿迪达斯男士裤子"中,系统预测活动为"跑步"。
数据准备
训练系统的第一步:由人类专家基于常见产品查询确定使用上下文类别列表。最终得到173个类别,分为112个活动(如阅读、清洁、跑步)和61个受众(如儿童、女儿、男士、专业人士)。
这是人类在标注训练数据中的唯一参与。我们自动化了其余数据准备过程:
- 使用标准参考文本为类别术语创建"别名"
- 扫描产品在线评论,寻找原始类别术语或其别名
- 使用内部数据集,将查询字符串与产品关联,按1-15的亲和度评分
模型训练
使用结果数据集训练六个不同的机器学习模型,每个模型都使用卷积神经网络:
- 将数据分为两个集合:按活动标注和按受众标注
- 从每个数据集中构建两个子集:最小允许亲和度评分为15和8
- 使用二元交叉熵和B加权二元交叉熵两种损失函数
实验结果
在测试中,最准确的模型使用普通二元交叉熵,亲和度阈值为8:
- 活动类别预测准确率:97%
- 受众类别预测准确率:92%
人类评审员评估显示,系统预测与注释者判断之间平均达成81%的一致性。
技术价值
这表明我们系统识别的使用上下文可以帮助产品发现算法提供更相关的结果,改善客户体验。此外,生成训练数据所需的最少人工监督意味着我们的方法可以相对轻松地扩展到新类别。
研究领域
搜索与信息检索
标签
算法、CHIIR、SIGIR
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
10万+

被折叠的 条评论
为什么被折叠?



