[论文笔记]Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

论文探讨了使用深度结构化语义模型(DSSM)改进网页搜索,通过点击数据进行训练,以提升查询与文档的语义匹配。DSSM利用深层神经网络(DNN)计算语义特征,并采用Word Hashing技术降低维度,解决大规模应用问题。作者还提出针对DSSM的优化策略,包括考虑字母n-gram和基于神经网络的语言模型,以增强模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

[论文笔记]Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

Abstract

  • DSSM是一个判别模型.
  • 训练方式:极大化给定query条件下,被点击的文档的条件似然(样本是clickthrough data).
  • 为了能够用于大规模搜索应用,使用了word hash技术

Introduction

  • 背景:搜索引擎很大程度上,还是用query中的keyword匹配文档的方式.问题:不准确,因为同一个概念在doc和query中可能用不同的词汇.
  • 老办法:隐含语义模型
    • 问题:使用非监督方式训练.目标函数和搜索任务中的效果好坏不是强相关.
  • 现在发展的两条主线
    • 使用点击数据
      – (待补充)
    • 通过deep autoencoder来扩展语义模型
      – 本质:通过dl来提取query和doc中的层次语义结构
      – 实例:卷积LSA
      – 问题1:训练的方式还是无监督的-通过重建文档来优化参数.而不是通过对比query下有点无点doc来优化,所以性能不能明显优于关键词匹配.
      – 问题2:语义哈希模型不能大规模应用,因为有巨大的矩阵相乘.
      – 作者说训练大词典的语义模型,对于真实世界的web搜索任务非常关键.

-论文工作
- 应用步骤: 1.投影query和doc 2.cosine
- 训练方式:
- word hashing: 将query和doc的高维term向量投影到”低维 基于letter n-gram”向量,并且不会有很多信息损失. (这应该是重点)

相关工作

本工作基于两个已有工作

LSM 和点击数据的使用

LSM由来已久,主要由两种.
-线性投影模型
- 典型例子:LSA (待补充)
- 翻译模型(待补充)

深度学习

autoencoder
sementic hashing
两个步骤:
- 生成模型栈
- 通过最小化原始term向量/重建term向量的交叉熵.
问题:
- 优化方式是通过重建,而不是比较有点无点.
- 性能较差,只能处理2000词汇表
后面作者的方案解决了这个问题.

3 针对网页搜索的DSSM

3.1 通过DNN计算语义特征

3.2 Word Hashing

-目的:bow的维度太高,需要降维
-基础:letter n-gram
-问题:冲突
-优点:
– 英语单词量可以是无限的,但是letter n-gram经常是有限的
– 一个单词的不同变形在letter n-gram空间通常比较接近.
– 基于word的表示很难处理新词,lng可以
– 唯一的风险就是冲突
-直观理解:lng-based word hashing可以看成一种固定(非适应)线性变化

3.3 Learning DSSM

选取4个负样本

3.4 实现细节


http://doc.mbalib.com/view/60d68fca09c03ade3a4dfe2a3617fcac.html

基于神经网络语言模型的DSSM模型优化

摘要

问题:
-word hashing会让维度大大增加
-dssm没有利用顺序,以及语义之间的关系
方案:
基于字词联合训练

0 引言

word hashing的缺点:
-中文字做trigram的话,维度太高
-忽略顺序
方案:
同时优化字向量和词向量

1 相关工作

1.1 神经网络语言模型

1.2 DSSM

2 基于神经网络语言的DSSM

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值