NLP系列文章（三）——文本向量的表示方法

技术宅zch

于 2020-04-20 15:51:13 发布

阅读量3.4k

点赞数 1

分类专栏： NLP 文章标签： nlp 自然语言处理深度学习神经网络

本文链接：https://blog.youkuaiyun.com/qq_19672707/article/details/105636969

版权

文本向量的表示方法

基于词向量的表示方法
有监督文本表示方法

基于词向量的表示方法

虽然one-hot和TF-IDF的表示方式也成为词向量，但是我们这里讨论的基于词向量的表示方式是围绕分布式词表征进行的。也就是利用Word2Vec、GloVe和fastText等词向量对文本进行表示，词向量可以根据任务或者资源的不同随意选择，文本表示的方法是通用的。

首先我们根据语料库训练词向量，也就是针对文本中的每个词汇，我们均有它的向量表示。当要获得每个文本的向量表示，可以将文本中出现的词汇进行求和、求平均以及加权求和等方式获取最后的结果。

求和与求平均的方式相对简单，此处不再赘述。如何进行加权求和可以针对任务的需求进行。常见的方式为TF-IDF加权的文本表示。

$\sum_i^n (TF - IDF(word_i) \times Word2Vec(word_i)) \\其中 word_i \in s$

最低0.47元/天解锁文章

技术宅zch

博客等级

码龄11年

79
原创

389
点赞

1132
收藏

89
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

聚类效果评估——轮廓系数（Silhouette Coefficient）附Python代码
RealMoYe: 博主您好，“是什么”部分，分离度定义中“紧密”一词应该是“分离”？
TensorFlow1.x入门（5）——构建非线性回归模型
Drew�: np.linspace拼写错误啦，可以更正下，支持博主
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
新一代图书管理员の养成笔记: 对NN能记住100条数据中前50条和后50条的次序区别存疑：以MLP为例，它内部不存在可以记忆时间的结构，如果前50条和后50条的信息是一模一样的，输入MLP，也将得到一模一样的结果，而如果MLP能记住“第几条数据”这个信息，则不可能得到一模一样的结果，故MLP记不住第几条数据的信息
Python中yield的作用与for循环的区别，yield关键字的白话解析
优快云-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.youkuaiyun.com/questions/8006779, 请多输出高质量博客, 帮助更多的人
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
qiao_yx: 在处理数据集时，是否将不同类别的数据一起做shuffle或分开处理取决于具体的情况和任务要求。将所有数据一起做shuffle然后划分数据集：适用场景：当你希望保持数据的随机性，并且对类别的顺序不敏感时，可以将所有数据合并后进行shuffle，然后再划分成训练集、验证集和测试集等。示例：在一个分类任务中，如果不同类别的数据在训练集和测试集中的分布比例是一样的，那么可以将所有数据合并后进行shuffle。分开类别分别做对应的操作：适用场景：当你希望在数据集的划分或处理过程中保持类别的平衡时，可以先将不同类别的数据分开，然后分别进行shuffle和处理。示例：在一个分类任务中，如果你希望训练集和测试集中的每个类别的样本数量保持大致相等，那么可以先将数据按类别分开，然后分别shuffle，最后再合并成训练集和测试集。具体选择哪种方式取决于任务的要求和数据集的性质。在实践中，可以根据具体情况灵活选择合适的方法。无论选择哪种方式，都要保证数据集的划分和处理是公平、合理的，以保证模型训练和评估的可靠性。