“嵌入”在大语言模型中是解决把句子转换成向量表示的技术

最新推荐文章于 2025-12-07 20:47:24 发布

原创

最新推荐文章于 2025-12-07 20:47:24 发布 · 1.2k 阅读

·

27

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #自然语言处理

上一篇：《人工智能是这样理解“情绪”的》

序言：这段话要优化吗？““嵌入”是一种将句子、单词或其他语言单位转换为向量表示的技术。这个向量通常位于高维空间中，它以一种能够表达相似性的方式编码出文本的含义或上下文。嵌入层的作用就在于把离散的语言符号（如单词或句子）转换成连续的向量，使得模型能更好地理解和处理语言之间的关系。其实我们人类的大脑也是这样干的，只是我们自己无法感知而已，我们最终得到的就是某个“记忆”，可以供人类随时使用的“记忆”也就是特征，所以让人工智能来识别人类说话中包含的情绪也只是将整句话转换成了向量后才能通过计算得到结论。

在 TensorFlow 人工智能开发框架中使用“嵌入”层

正如你在 Dense 和 Conv2D 中所见，tf.keras 使用嵌入层来实现嵌入。这会创建一个查找表，将一个整数映射到一个嵌入表，其中的内容是表示该整数对应单词的向量系数。例如，在上个章节的《傲慢与偏见》示例中，x 和 y 坐标会为我们提供某个书中人物的嵌入。当然，在实际的 NLP 问题中，我们会使用远多于两个维度。因此，向量空间中的向量方向可以视为编码了单词的“含义”，而那些指向大致相同方向的相似向量所代表的单词则可以被认为是与该单词相关的。

嵌入层将被随机初始化——也就是说，向量的坐标一开始是完全随机的，在训练过程中通过反向传播学习得到。当训练完成时，嵌入会粗略编码出单词之间的相似性，使我们可以基于这些单词的向量方向识别出某种程度上相似的单词。

这些内容相当抽象，所以我认为理解嵌入的最佳方式是动手实践。让我们从使用第五章的讽刺数据集来构建一个讽刺检测器开始。

使用”嵌入”技术设计一个讽刺情绪检测器

在第五章中，你加载并对一个名为《讽刺检测新闻标题数据集》的 JSON 数据集（简称讽刺数据集）进行了预处理。处理完成后，你会得

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。