[深度学习] embedding 在test阶段遇到OOV怎么办

最新推荐文章于 2025-07-18 23:11:42 发布

Kehl

最新推荐文章于 2025-07-18 23:11:42 发布

阅读量9.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： tensorflow LSTM 文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/Oliverkehl/article/details/79897329

tensorflow 同时被 2 个专栏收录

2 篇文章

订阅专栏

LSTM

1 篇文章

订阅专栏

本文讨论了在使用char级别的RNN模型时如何处理测试阶段遇到的OOV问题。提出了两种主要思路：一是为UNK提供特定的embedding；二是不为UNK提供embedding，将其初始化为0向量或每次随机初始化。

即使是char级别的rnn模型，在test阶段也会遇到OOV

这种情况肯定是没法用embedding层的lookup的

如果OOV情况不多，就可以当做UNK处理

有两类思路：

1. UNK有对应的embedding

这种情况怎么来的呢，就是把训练集中所有出现频率小于某个阈值的词都标记为UNK，当然也别太多，这样就得到了UNK的embedding，这里的embedding有一定的语义信息，仁者见仁，可能不好使

2. UNK没有对应的embedding

a. 把UNK都初始化成0的向量

b. 每次都把UNK初始化成一个新的随机向量

都初始化成0向量，会使得UNK都共享相同的语义信息，所以很多人都倾向于对UNK直接随机，因为本身每个UNK都不同，随机更符合我们对UNK基于最大熵的估计，即我不知道你是个啥，所以我就随机出一个，很多地方也证实使用随机向量处理UNK带来的好处:

How to add new embeddings for unknown words in Tensorflow

Initializing Out of Vocabulary (OOV) tokens

如果OOV的情况较多，建议重新train一份embedding

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kehl

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

TensorFlow深度学习实战——基于自编码器构建句子向量

盼小辉丶的博客

07-08

968

本文基于长短期记忆 (Long Short Term Memory, LSTM) 自编码器构建了 Reuters-21578 语料库的句子向量表示模型。传统词袋方法忽略词序，而 LSTM 通过处理序列数据保留语义信息。模型采用 50 维 GloVe 词嵌入，通过双向 LSTM 编码器将句子压缩为 512 维向量，再经解码器重建。

智能分析：情绪分析_（6）.深度学习在情绪分析中的应用

zhubeibei168的博客

03-28

1064

通过本节的介绍，我们详细探讨了深度学习在情绪分析中的应用，包括常用的模型、数据预处理、训练和评估等步骤。深度学习模型能够显著提高情绪分析的准确性和鲁棒性，适用于多种场景和数据类型。希望这些内容能够帮助你在实际项目中更好地应用深度学习进行情绪分析。

4 条评论您还未登录，请先登录后发表或查看评论

【Python深度学习】Python全栈体系（三十六）

柠檬小帽的博客 - 计算机全栈体系

09-22

780

NLP概述利用TextCNN实现文本分类

讲解Unknown: Failed to get convolution algorithm. This is probably because cuDNN

牛肉胡辣汤

12-22

527

"Unknown: Failed to get convolution algorithm. This is probably because cuDNN"错误通常与cuDNN库的卷积算法获取失败有关。在解决这个错误时，你需要注意cuDNN库的版本兼容性，确保正确安装和设置cuDNN库，以及更新GPU驱动程序。如果问题仍然存在，你可以尝试重新编译深度学习框架。希望本文对你解决该错误提供了一些帮助和指导。

AI：词嵌入（Word Embedding）中的未登录词（Out-Of-Vocabulary, OOV）问题

最新发布

xyzroundo的专栏

07-18

820

摘要：未登录词（OOV）问题是NLP中测试词汇未出现在训练词表中的现象，主要由语言动态性、数据局限性和技术限制导致。OOV会降低模型性能，造成信息损失。主流解决方案包括子词分割（如WordPiece、BPE）、字符级模型和混合策略。不同语言OOV率差异显著，中文处理需结合字符级拆分和语素特征。最新进展包括动态词汇扩展和多模态嵌入。实践中建议优先选择支持子词处理的模型（如BERT），中文任务可优化使用全词掩码模型。OOV问题反映语言无限性与模型有限性的矛盾，虽在子词技术推动下有所缓解，但跨语言和低资源领域仍有

保姆级教程：手把手教你使用深度学习处理文本

m0_59596937的博客

12-10

2127

大家好，今天给大家分享使用深度学习处理文本，更多技术干货，后面会陆续分享出来，感兴趣可以持续关注。

Deeplearning for NLP (简介)

Ding_xiaofei的博客

05-09

935

开篇过目就忘说的可能就是在下了，所以现在所有的学习内容我都会写成博客，不成博客的就是过目就忘啦。这是系列不算挖坑，前面写了几篇Tensorflow的文章，词向量这篇一直处于难产中，拖延症比较严重。争取这两天能够写出来。下面开始我们的正题，这篇博客的内容主要来源于17年牛津大学的NLP课程，这边放出课程oxford-cs-deepnlp的github地址和网易云课堂课程的视频链接，夸一下网易，很...

【深度学习】深度学习基本概念、工作原理及实际应用案例

weixin_51306394的博客

08-01

5395

深度学习是一种机器学习方法，它试图模拟人脑中的神经网络结构，以解决复杂的问题。深度学习的核心在于构建多层非线性处理单元（即神经元）的网络结构，这些网络可以从原始数据中自动提取特征并进行学习。

TensorFlow深度学习实战——基于循环神经网络的词性标注模型

盼小辉丶的博客

05-04

1564

‌词性标注 (Part-Of-Speech tagging, POS tagging) 也被称为语法标注 (grammatical tagging) 或词类消疑 (word-category disambiguation)，是将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术‌，涉及识别文本中每个单词的语法类别，如名词、动词、形容词等。词性标注对于理解句子结构和语义至关重要，广泛应用于各类大规模语料库的自然语言处理和文本挖掘。

深度学习与语言模型

AI天才研究院

08-08

970

在自然语言处理领域，语言模型是一个至关重要的基础工具。它可以帮助机器理解输入句子、文本中的单词顺序以及词汇的概率分布。在实际应用中，语言模型能够实现诸如文本生成、文本摘要、机器翻译等功能，还能提升语言数据的质量和效率。但是，如何有效地训练语言模型并让其真正运用起来仍然是一个棘手的问题。目前，深度学习技术已经为解决这个问题提供了新的思路。深度学习的最新进展为此提供了新思路。随着大规模数据、高计算性能的增加，深度学习方法逐渐成为机器学习领域的主流技术。

【吴恩达Tensorflow 2.0实践课】3.2 Embedding

culeworks

01-14

493

3.2.1 Word Embedding 定义单词和关联词聚类，作为多维空间的向量。比如电影评论中，分成两个集群（cluster）。当搜索“无聊（boring）”时，会出现在负面评论的集群中。当搜索“有趣（fun）”时，“funny” 出现在正面评论集群中，“fundamental” 出现在中心，意味着中性评论本节将介绍如何建立分类器，并提供可视化效果 3.2.2 TensorFlow Data Services （TFDS）提供很多数据集使用方法（例如MNIST）：...

自然语言处理实战 深度学习之LSTM情感分析

12-08

课程目标学习完本门课程，您将对自然语言处理技术有更深入的了解，掌握基于深度学习情感分析方法;课程基于PyTorch主流框架实现，其中涉及深度学习主流框架LSTM模型以及自然语言处理的词向量；彻底掌握中文情感分析。适用人群想要从事NLP的在校学生、NLP研发工程师自然语言处理从业者、深度学习爱好者课程简介 NLP领域的热门应用，常用在舆情分析，文章分类，智能客服，情感分析等多个场景。情感分析作为自然语言处理的基础技术之一，常被用于电商评论、舆情监控、微博评论情感分析、话题监督等领域，因此深入掌握情感分析技术，是作为自然语言处理从业者必备技能，本课程以案例驱动出发，结合多个项目实战案例，覆盖多种算法，如RNN，LSTM等课程要求：（1）开发环境：python版本：Python3.7； torch 版本：1.3.0＋； torchtext版本：0.3.0+ （2）开发工具：Pycharm；（3）学员基础：需要一定的Python基础，及深度学习基础；（4）学员收货：掌握深度学习情感分类关键技术；（5）学员资料：内含完整程序源码和数据集；（6）课程亮点：专题技术，完整案例，全程实战操作，徒手撸代码。案例5-情感分析功能点

人工智能 - paddlepaddle飞桨 - 深度学习基础教程 - 机器翻译

YunWisdom

12-01

1443

机器翻译本教程源代码目录在book/machine_translation,初次使用请您参考Book文档使用说明。说明¶ 硬件要求本文可支持在CPU、GPU下运行对docker file cuda/cudnn的支持如果您使用了本文配套的docker镜像，请注意：该镜像对GPU的支持仅限于CUDA 8，cuDNN 5 文档中代码和seq2seq.py不一致的问题请注意：为使...

文本生成中的OOV问题

weixin_42887772的博客

07-18

2637

oov问题是文本生成任务中很常见的现象，oov问题是怎么产生的呢？

NLP自然语言处理中oov的词的解释

Lisen’s blog

11-11

7792

oov 英文全称：out of vocabulary，即超出词表外的词。

算法工程师面试之OOV问题如何解决？

说文科技，做有态度的研究。

06-20

1万+

NLP中的OOV问题以及处理方式

使用keras调用load_model时报错ValueError: Unknown Layer

u014027421的博客

05-21

2649

原因：模型使用了自定的层处理：在load_model函数中添加custom_objects参数，该参数接受一个字典，键值为自定义的层的函数名（类名）例如：自定义了两层 def MaxPoolingWithArgmax2D(layer): pass def MaxUnpooling2D(layer): pass 加载模型方式： model = load_model(args["model"], custom_objects={'MaxPoolingWithA...

深度学习（BOT方向）学习笔记（1） Sequence2Sequence 学习

热门推荐

MebiuW的专栏

10-16

1万+

1 前言这个深度学习，其实是来自每周Paper笔记的整理版，即文章的主要内容其实是我对一篇文章的整理，受限于个人水平，可能很多地方会出现理解偏差、或者理解不到位的地方，所以如果发现什么不对的地方欢迎交流。之前我一直不想发这个博文，因为觉得我水平实在有限，不过现在看来还是不论好坏，拖出来见见光好了。所以这个系列的博文的主要内容是我每周Paper阅读的笔记整理，偶尔穿插着一些实验内容。文章的具体信息我会

情感分析深度学习模型

03-21

### 关于深度学习情感分析模型的实现 深度学习的情感分析通常依赖于复杂的神经网络结构来捕捉文本中的语义特征。常见的深度学习架构包括循环神经网络 (RNN)[^1]、长短时记忆网络 (LSTM) 和双向 LSTM 结构，以及近年来流行的 Transformer 架构及其变体如 BERT。 #### 数据预处理在构建情感分析模型之前，数据预处理是一个重要的环节。这一步骤可能涉及去除停用词、分词、词嵌入转换等操作。常用的词嵌入技术有 Word2Vec 或 GloVe，而更先进的方法则采用上下文敏感的词嵌入方式，比如 ELMo 或者 BERT 的 Fine-tuning 方法。 #### 常见模型架构以下是几种常见的情感分析深度学习模型： 1. **卷积神经网络 (CNN)** CNN 可用于提取局部模式并捕获短距离内的关系，在某些情况下能够很好地应用于情感分类任务。它通过一系列滤波器检测特定的语言模式，并将其映射到更高维度的空间中进行分类。 2. **循环神经网络 (RNN) / 长短期记忆网络 (LSTM)** RNN 能够有效处理序列化输入，尤其适合像句子这样的时间序列数据。然而，标准 RNN 容易受到梯度消失的影响；因此，改进版的 LSTM 成为了主流选择之一。LSTM 利用了门控机制保存长期状态信息，从而更好地理解上下文含义。 3. **Transformer 与 BERT** Transformer 是一种完全基于注意力机制的新颖框架，摒弃了传统的 RNN/CNN 设计思路。BERT（Bidirectional Encoder Representations from Transformers）作为其中的一个代表作，已经在多项 NLP 评测上刷新记录。通过对大规模无标注语料库的学习，BERT 提供了一个强大的通用语言表征工具箱，可以直接迁移至下游任务如情感分析之上。 #### 示例代码：使用 Keras 实现简单的 LSTM 情感分析模型下面展示如何利用 Python 中的 TensorFlow/Keras 库快速搭建一个基础版本的 LSTM 文本分类器。 ```python import tensorflow as tf from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences # 参数设置 vocab_size = 10000 # 字典大小 embedding_dim = 64 # 嵌入维度 max_length = 100 # 输入长度截断/填充的最大值 trunc_type='post' # 截断位置 padding_type='post' # 补齐位置 oov_tok = "<OOV>" # OOV标记符 # 加载数据集... tokenizer = Tokenizer(num_words=vocab_size, oov_token=oov_tok) tokenizer.fit_on_texts(sentences) sequences = tokenizer.texts_to_sequences(sentences) padded = pad_sequences(sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type) model = tf.keras.Sequential([ tf.keras.layers.Embedding(vocab_size, embedding_dim), tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(embedding_dim)), tf.keras.layers.Dense(24, activation='relu'), tf.keras.layers.Dense(1, activation='sigmoid') ]) model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) history = model.fit(padded, labels, epochs=num_epochs, validation_data=(test_padded, test_labels)) ``` 上述脚本定义了一个双方向 LSTM 层配合全连接层完成二元情绪预测的任务。当然实际项目里还需要考虑更多细节优化过程诸如超参数调整、正则项引入等等。