前言
Word Embedding是整个自然语言处理(NLP)中最常用的技术点之一,广泛应用于企业的建模实践中。我们使用Word Embedding能够将自然文本语言映射为计算机语言,然后输入到神经网络模型中学习和计算。如何更深入地理解以及快速上手生成Word Embedding呢?本文对Word Embedding原理和生成方法进行了讲解。
一、Word Embedding初探
什么是Word Embedding
一句话概述,Word Embedding即词向量,是一种函数映射关系。我们知道,在机器学习中,特征都是以数值的形式进行传递的。同样的,在NLP中,文本特征也需要被映射成数值向量。例如,我们将单词“你好”进行Word Embedding后,可以把其映射成一个5维向量:你好 ——> (0.1, 0.5, 0.3, 0.2, 0.2)。
词向量的映射过程
一般来说,我们采用“词 ——> 向量空间1 ——> 向量空间2”的映射过程实现文本单词向量化。整个映射过程可以分为两步:
1、词 ——> 向量空间1
该步骤解决把一个词转换成vector(数值向量)的问题。例如,将文本单词转换成One-Hot向量。
2、向量空间1 ——> 向量空间2
该步骤解决vector的优化问题,即在已经有了一个vector的情况下,寻求更好的办法优化它。
二、使用One-Hot和SVD求Word Embedding方法
One-Hot(词——>向量空间1)
One-Hot是目前最常见的用于提取文本特征的方法之一。本文使用One-Ho

最低0.47元/天 解锁文章
619

被折叠的 条评论
为什么被折叠?



