DSSM双塔模型损失部分详解

DSSM是把句子映射为向量,利用距离公式来表示文本间的相似度。DSSM在信息检索,文本排序,问答,图片描述,机器翻译等由广泛应用。

网络结构

在这里插入图片描述
DSSM模型的整体结构图如图所示,Q代表Query信息,D表示Document信息。
(1)Term Vector:表示文本的Embedding向量;
(2)Word Hashing技术:为解决Term Vector太大问题,对bag-of-word向量降维;
(3)Multi-layer nonlinear projection:表示深度学习网络的隐层;
在这里插入图片描述
(4)Semantic feature :表示Query和Document 最终的Embedding向量;

(5)Relevance measured by cosine similarity:表示计算Query与Document之间的余弦相似度;即:
在这里插入图片描述
在这里插入图片描述

(6)Posterior probability computed by softmax:表示通过Softmax 函数把Query 与正样本Document的语义相似性转化为一个后验概率;即:
在这里插入图片描述在这里插入图片描述

代码解析

#代表查询信息  [batch_size,embedding_size]
query_encoder = build_query_model(features, mode)

#代表正文本信息  [batch_size,embedding_size]
doc_encoder = build_doc_model(features, mode)

 with tf.name_scope("fd-rotate"):
     # 正文本信息复制一份  注意里面是batch_size个
     tmp = tf.tile(doc_encoder, [1, 1])
     doc_encoder_fd = doc_encoder
     for i in range(FLAGS.NEG):
         rand = random.randint(1, FLAGS.batch_size + i) % FLAGS.batch_size
         s1 = tf.slice(tmp, [rand, 0], [FLAGS.batch_size - rand, -1])
         s2 = tf.slice(tmp, [0, 0], [rand, -1])
         # 通过slice从batch_size里面随机选择样本 相当于打乱了顺序
         doc_encoder_fd = tf.concat([doc_encoder_fd, s1, s2], axis=0)
    # 计算q向量的模长   同样需要复制
     query_norm = tf.tile(tf.sqrt(tf.reduce_sum(tf.square(query_encoder), axis=1, keepdims=True)), [FLAGS.NEG + 1, 1])
     #计算正负样本的模长  
     doc_norm = tf.sqrt(tf.reduce_sum(tf.square(doc_encoder_fd), axis=1, keepdims=True))
     #复制q矩阵
     query_encoder_fd = tf.tile(query_encoder, [FLAGS.NEG + 1, 1])
     # 计算q复制后的向量 和 正负样本的 ×成  余弦相似度的分子
     prod = tf.reduce_sum(tf.multiply(query_encoder_fd, doc_encoder_fd), axis=1, keepdims=True)
     # 计算余弦相似度的分母
     norm_prod = tf.multiply(query_norm, doc_norm)
     #求的对应位置的相似度
     cos_sim_raw = tf.truediv(prod, norm_prod)
     # 矩阵转换 转换成为【batch_size ,正负样本数量】
     cos_sim = tf.transpose(tf.reshape(tf.transpose(cos_sim_raw), [FLAGS.NEG + 1, -1])) * 20

 with tf.name_scope("loss"):
     prob = tf.nn.softmax(cos_sim)
     # 正样本只在第一个位置
     hit_prob = tf.slice(prob, [0, 0], [-1, 1])
     loss = -tf.reduce_mean(tf.log(hit_prob))
     correct_prediction = tf.cast(tf.equal(tf.argmax(prob, 1), 0), tf.float32)
     accuracy = tf.reduce_mean(correct_prediction)
把整个逻辑走下来是这样  batch_size = 4     三个负样本
**************  doc_encoder_fd  ******************
[[1. 2. 1. 1.]
 [2. 3. 2. 2.]
 [3. 4. 3. 3.]
 [4. 5. 5. 4.]
 
 [1. 2. 1. 1.]    #会发现 有可能吧正样本也当做负样本
 [2. 3. 2. 2.]
 [3. 4. 3. 3.]
 [4. 5. 5. 4.]
 
 [3. 4. 3. 3.] # 负样本
 [4. 5. 5. 4.]
 [1. 2. 1. 1.]
 [2. 3. 2. 2.]
 
 [4. 5. 5. 4.] #负样本
 [1. 2. 1. 1.]
 [2. 3. 2. 2.]
 [3. 4. 3. 3.]]
****************  query_norm  模长  ****************
[[ 3.1622777]
 [ 7.071068 ]
 [11.045361 ]
 [15.033297 ]
 
 [ 3.1622777]
 [ 7.071068 ]
 [11.045361 ]
 [15.033297 ]
 
 [ 3.1622777]
 [ 7.071068 ]
 [11.045361 ]
 [15.033297 ]
 
 [ 3.1622777]
 [ 7.071068 ]
 [11.045361 ]
 [15.033297 ]]
***************  doc_norm  模长  *****************
[[2.6457512]
 [4.5825753]
 [6.557438 ]
 [9.055385 ]
 
 [2.6457512]
 [4.5825753]
 [6.557438 ]
 [9.055385 ]
 
 [6.557438 ]
 [9.055385 ]
 [2.6457512]
 [4.5825753]
 
 [9.055385 ]
 [2.6457512]
 [4.5825753]
 [6.557438 ]]
********************  query_encoder_fd    Q ************
[[1. 2. 1. 2.]
 [3. 4. 3. 4.]
 [5. 6. 5. 6.]
 [7. 8. 7. 8.]
 
 [1. 2. 1. 2.]
 [3. 4. 3. 4.]
 [5. 6. 5. 6.]
 [7. 8. 7. 8.]
 
 [1. 2. 1. 2.]
 [3. 4. 3. 4.]
 [5. 6. 5. 6.]
 [7. 8. 7. 8.]
 
 [1. 2. 1. 2.]
 [3. 4. 3. 4.]
 [5. 6. 5. 6.]
 [7. 8. 7. 8.]]
**************   prod  余弦相似度  分子   ******************
[[  8.]
 [ 32.]
 [ 72.]
 [135.]
 [  8.]
 [ 32.]
 [ 72.]
 [135.]
 [ 20.]
 [ 63.]
 [ 28.]
 [ 68.]
 [ 27.]
 [ 18.]
 [ 50.]
 [ 98.]]
******************   norm_prod  余弦相似度 分母  **************
[[  8.3666  ]
 [ 32.4037  ]
 [ 72.42927 ]
 [136.13228 ]
 [  8.3666  ]
 [ 32.4037  ]
 [ 72.42927 ]
 [136.13228 ]
 [ 20.736439]
 [ 64.03124 ]
 [ 29.223276]
 [ 68.89121 ]
 [ 28.635641]
 [ 18.708286]
 [ 50.616196]
 [ 98.57991 ]]
***************  cos_sim_raw   比例   *****************
[[0.9561829 ]
 [0.9875415 ]
 [0.9940733 ]
 [0.9916825 ]
 [0.9561829 ]
 [0.9875415 ]
 [0.9940733 ]
 [0.9916825 ]
 [0.96448576]
 [0.9838947 ]
 [0.9581404 ]
 [0.98706347]
 [0.9428809 ]
 [0.9621405 ]
 [0.9878261 ]
 [0.9941174 ]]
***************  cos_sim     转置 reshape成结果   我们只需要人为一个维是正样本就可以* ****************
[[0.9561829  0.9561829  0.96448576 0.9428809 ]
 [0.9875415  0.9875415  0.9838947  0.9621405 ]
 [0.9940733  0.9940733  0.9581404  0.9878261 ]
 [0.9916825  0.9916825  0.98706347 0.9941174 ]]

推荐中双塔模型最后一层为什么要用L2正则?

在这里插入图片描述
在这里插入图片描述

### DSSM双塔模型架构与实现 #### 架构概述 DSSM(Deep Structured Semantic Model)是一种经典的双塔模型,最初由微软提出并应用于搜索引擎领域[^2]。该模型的核心思想是通过神经网络学习查询(query)和文档(document)之间的语义相似度。具体来说,DSSM将输入的文本转换为低维向量表示,并计算它们之间的余弦相似度作为匹配分数。 #### 模型结构 DSSM的主要组成部分包括以下几个层次: 1. **Embedding 层** 输入通常是稀疏的词袋(Bag-of-Words, BoW)或字符 n-gram 特征。这些特征会被映射到密集的嵌入空间中[^3]。例如,对于单词序列 `w_1, w_2, ..., w_n`,可以将其转化为一组 one-hot 向量,再通过嵌入矩阵得到连续向量表示。 2. **隐藏层** 嵌入后的向量会经过多层全连接神经网络(Fully Connected Layers),逐步提取高层次的语义特征[^1]。每一层都会引入非线性激活函数(如 ReLU 或 tanh),从而捕捉复杂的模式关系。 3. **规范化处理** 在最终输出之前,通常会对隐含层的结果应用 L2 归一化操作,确保生成的向量长度一致,便于后续计算余弦距离[^4]。 4. **相似度计算** 查询和文档分别通过各自的塔传递后获得两个固定维度的向量 \( \vec{q} \) 和 \( \vec{d} \),接着利用如下公式衡量两者间的接近程度: \[ sim(q,d)=\frac{\vec{q}\cdot\vec{d}}{\|\vec{q}\|_{L2}\times\|\vec{d}\|_{L2}} \] #### 训练策略 针对排序任务,常采用 pairwise 方法构建训练样本集[^5]。即选取每一对包含正反馈 (clicked document) 和负反馈 (unclicked document) 的实例构成对比对子。损失函数可以选择基于 margin 的 hinge loss 或者 logistic regression 类型的形式表达如下: \[ loss=\sum_i max(0,m-sim(q,p)+sim(q,n)) \] 其中 m 表示预设的安全边界参数;p/n 分别代表正面/负面样例。 以下是 Python 实现的一个简化版本代码片段展示如何搭建这样的框架: ```python import tensorflow as tf from tensorflow.keras import layers def create_tower(input_dim, embedding_dim=128): input_layer = layers.Input(shape=(input_dim,)) embedded = layers.Embedding(input_dim=input_dim+1, output_dim=embedding_dim)(input_layer) flatten = layers.Flatten()(embedded) dense1 = layers.Dense(256, activation='relu')(flatten) dropout1 = layers.Dropout(0.5)(dense1) dense2 = layers.Dense(128, activation='tanh')(dropout1) norm = tf.math.l2_normalize(dense2, axis=-1) model = tf.keras.Model(inputs=[input_layer], outputs=[norm]) return model # Define Query Tower and Document Tower with same structure but different weights. query_input_size = vocab_size_for_queries # Replace this value accordingly. doc_input_size = vocab_size_for_documents # And replace this. query_model = create_tower(query_input_size) doc_model = create_tower(doc_input_size) # Combine both towers into a single model for training purposes. positive_doc_output = doc_model([pos_doc_inputs]) # Assume pos_doc_inputs defined elsewhere. negative_doc_output = doc_model([neg_doc_inputs]) cosine_sim_pos = tf.reduce_sum(tf.multiply(query_model.output, positive_doc_output), axis=-1) cosine_sim_neg = tf.reduce_sum(tf.multiply(query_model.output, negative_doc_output), axis=-1) margin_loss = tf.maximum(cosine_sim_neg - cosine_sim_pos + MARGIN_CONSTANT, 0.) total_loss = tf.reduce_mean(margin_loss) train_step = tf.optimizers.Adam().minimize(total_loss, var_list=query_model.trainable_variables + doc_model.trainable_variables) ``` 上述脚本定义了一个基础版的双通道网络及其相应的优化流程。实际部署时可能还需要考虑更多细节调整以及超参寻优等问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值