TensorFlow自然语言处理实战：CBOW词嵌入模型详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00791/article/details/148487171

TensorFlow自然语言处理实战：CBOW词嵌入模型详解

tensorflow_cookbook Code for Tensorflow Machine Learning Cookbook 项目地址: https://gitcode.com/gh_mirrors/te/tensorflow_cookbook

引言

在自然语言处理(NLP)领域，词嵌入(Word Embedding)技术是处理文本数据的基础。本文将深入解析基于TensorFlow实现的Continuous Bag of Words(CBOW)模型，这是Word2Vec算法中的一种重要架构。通过本教程，您将掌握如何使用TensorFlow构建和训练CBOW模型，从而将单词转换为有意义的向量表示。

环境准备与数据加载

首先，我们需要导入必要的库并初始化TensorFlow会话：

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
import random
import os
from nltk.corpus import stopwords

# 初始化TensorFlow会话
sess = tf.Session()
ops.reset_default_graph()

我们使用电影评论数据集作为训练数据，这些数据需要经过预处理：

加载原始文本数据
标准化文本（去除标点、转换为小写等）
过滤掉过短的句子

# 加载并预处理数据
texts, target = text_helpers.load_movie_data()
texts = text_helpers.normalize_text(texts, stops)

# 只保留长度大于2个单词的句子
target = [target[ix] for ix, x in enumerate(texts) if len(x.split()) > 2]
texts = [x for x in texts if len(x.split()) > 2]

构建词汇表

为了将单词转换为模型可处理的数值形式，我们需要构建词汇表：

# 构建词汇表（限制大小为2000）
word_dictionary = text_helpers.build_dictionary(texts, vocabulary_size=2000)
word_dictionary_rev = {v: k for k, v in word_dictionary.items()}

# 将文本转换为数字序列
text_data = text_helpers.text_to_numbers(texts, word_dictionary)

CBOW模型架构

CBOW模型的核心思想是通过上下文单词预测中心单词。我们定义以下关键组件：

1. 模型参数

batch_size = 200
embedding_size = 50  # 词向量维度
vocabulary_size = 2000
window_size = 3      # 考虑左右各3个上下文单词
learning_rate = 0.05

2. 嵌入层与NCE损失

# 词嵌入矩阵
embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))

# NCE损失参数
nce_weights = tf.Variable(tf.truncated_normal([vocabulary_size, embedding_size], stddev=1.0/np.sqrt(embedding_size)))
nce_biases = tf.Variable(tf.zeros([vocabulary_size]))

# 输入占位符
x_inputs = tf.placeholder(tf.int32, shape=[batch_size, 2*window_size])
y_target = tf.placeholder(tf.int32, shape=[batch_size, 1])

3. 前向传播

# 计算上下文单词的嵌入向量和
embed = tf.zeros([batch_size, embedding_size])
for element in range(2*window_size):
    embed += tf.nn.embedding_lookup(embeddings, x_inputs[:, element])

4. 损失函数与优化器

# NCE损失
loss = tf.reduce_mean(tf.nn.nce_loss(
    weights=nce_weights,
    biases=nce_biases,
    labels=y_target,
    inputs=embed,
    num_sampled=int(batch_size/2),
    num_classes=vocabulary_size))

# 优化器
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)

模型训练

训练过程包括以下关键步骤：

初始化变量
生成训练批次
定期验证和保存模型

# 初始化变量
init = tf.global_variables_initializer()
sess.run(init)

# 训练循环
for i in range(1, generations+1):
    # 生成训练批次
    batch_inputs, batch_labels = text_helpers.generate_batch_data(text_data, batch_size, window_size)
    
    # 运行优化器
    feed_dict = {x_inputs: batch_inputs, y_target: batch_labels}
    sess.run(optimizer, feed_dict=feed_dict)
    
    # 定期打印损失和验证结果
    if i % print_loss_every == 0:
        loss_val = sess.run(loss, feed_dict=feed_dict)
        print(f"Loss at step {i} : {loss_val}")
    
    if i % print_valid_every == 0:
        # 计算验证单词的相似度
        sim = sess.run(similarity, feed_dict=feed_dict)
        for j in range(len(valid_words)):
            valid_word = word_dictionary_rev[valid_examples[j]]
            top_k = 5
            nearest = (-sim[j, :]).argsort()[1:top_k+1]
            log_str = f"Nearest to {valid_word}:"
            for k in range(top_k):
                close_word = word_dictionary_rev[nearest[k]]
                log_str = f"{log_str} {close_word},"
            print(log_str)
    
    # 定期保存模型
    if i % save_embeddings_every == 0:
        save_path = saver.save(sess, os.path.join(data_folder_name, "cbow_movie_embeddings.ckpt"))
        print(f"Model saved in file: {save_path}")

结果分析与应用

训练完成后，我们可以观察到：

损失值逐渐下降，表明模型正在学习有意义的词向量
验证单词的相似词开始显示出语义相关性
保存的词向量可以用于下游NLP任务

例如，训练过程中部分输出显示：

Nearest to love: grace, group, perfect, voice, know
Nearest to hate: nostalgia, affection, relies, bits, saving
Nearest to happy: closer, subjects, viewer, rent, una

这表明模型已经开始捕捉单词之间的语义关系。