机器学习笔记 - keras和预训练词嵌入

坐望云起

已于 2022-03-21 20:29:09 修改

阅读量1.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习从入门到精通文章标签： keras 词嵌入 glove Embedding NLP

于 2022-03-21 20:28:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/bashendixie5/article/details/123642826

深度学习从入门到精通专栏收录该内容

798 篇文章 ¥99.90 ¥299.90

订阅专栏

本文介绍了Keras中的词嵌入技术，包括全局向量（GloVe）和词到向量表示（Word2vec）。通过示例展示了如何使用Keras的Embedding层进行文本数据预处理，不使用预训练词嵌入和使用预训练的GloVe嵌入的步骤，并且展示了预训练词嵌入如何提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、概述

词嵌入（Word embedding）是一种使用密集向量表示来表示单词和文档的 NLP 技术，与使用大稀疏向量表示的词袋技术相比。嵌入是一类 NLP 方法，旨在将单词的语义含义投影到几何空间中。

这是通过将数字向量链接到字典中的每个单词来实现的，以便任何两个向量之间的距离捕获两个相关单词之间的语义关系部分。这些向量形成的几何空间称为嵌入空间。

学习词嵌入的两种最流行的技术是用于词表示的全局向量 (GloVe) 和词到向量表示 (Word2vec)。

Keras 提供了一个嵌入层，可用于文本或自然语言数据。输入数据应进行数字编码，以便每个单词都由数字或整数值表示。我们可以使用 Keras 的 tokenizer API 来执行此操作。在我们使用没有预训练嵌入的 Keras API 的情况下，嵌入层使用随机权重进行初始化。

二、数据准备

首先创建示例文档和相应的标签，将每个文档分类为正面或负面，如以下代码片段所示：

# 定义文档
documents = [
    'Well done!',
    'Good work',
    'Great

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

坐望云起 如果觉得有用，请不吝打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。