深入探索Skip - Gram模型与Word2Vec的应用
在自然语言处理领域,词嵌入是一项关键技术,它能够将文本中的词语转换为数值向量,从而让计算机更好地理解和处理文本。Skip - Gram模型是一种常用的词嵌入模型,下面我们将详细介绍如何实现Skip - Gram模型,并探讨Word2Vec在机器学习任务中的应用。
1. 实现Skip - Gram模型
实现Skip - Gram模型主要包括以下五个部分:
- 构建语料库词汇表
- 构建Skip - Gram [(目标词, 上下文词), 相关性]生成器
- 构建Skip - Gram模型架构
- 训练模型
- 获取词嵌入
1.1 构建语料库词汇表
首先,我们需要从语料库中提取每个唯一的单词,并为其分配一个唯一的标识符。以下是实现代码:
from keras.preprocessing import text
tokenizer = text.Tokenizer()
tokenizer.fit_on_texts(norm_bible)
word2id = tokenizer.word_index
id2word = {v:k for k, v in word2id.items()}
vocab_size = len(word2id) + 1
embed_size = 100
wids = [[word2id[w] for w in text.text_to_word_sequence(doc)] for doc in norm_bible]
print('Vocabular
超级会员免费看
订阅专栏 解锁全文
875

被折叠的 条评论
为什么被折叠?



