词向量与预训练模型
飞翔的大马哈鱼
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《Distributed Representations of Words and Phrases and their Compositionality》word2vector学习笔记
最近研究了一下google的开源项目word2vector,http://code.google.com/p/word2vec/。其实这玩意算是神经网络在文本挖掘的一项成功应用。本文是看了论文《Distributed Representations of Words and Phrases and their Compositionality》的学习笔记。论文中,展示了几种原始skip...转载 2017-06-19 13:33:31 · 2144 阅读 · 0 评论 -
Word2Vec概述与基于Hierarchical Softmax的CBOW和Skip-gram模型公式推导
该文档是我在《Word2Vec_中的数学原理详解》基础上做的总结和一些新的描述,增加了代码与公式的对照和公式总汇(公式太多,汇总下看起来更方便),可以更加方便的加深对代码和公式理解。既然是总结,则一些很基础的知识我没有写到,如果里面的有些概念不熟悉,也可以自己查一下,网上资料还是很多的。本笔记主要是对《Word2Vec中的数学原理详解》的总结和补充,目的是加深自己的理解和认识。 1、概转载 2017-06-15 18:23:10 · 1055 阅读 · 0 评论 -
BOW (bag of words) 词袋模型
BOW (bag of words) 模型简介Bag of words模型最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子(因为里面装的都是词汇,所以称为词袋,Bag of words即因此而来),然后看这个袋子里装的都是些什么词汇,将其分类。如果文原创 2017-06-05 13:34:43 · 1066 阅读 · 0 评论 -
python 下的 word2vec 学习笔记
1.ubuntu下安装gensimrefer to: ubuntu 14.04 安装gensim为了保证安装成功,首先升级一下easy_install工具。sudo easy_install -U setuptools之后使用easy_install进行安装,使用apt-get安装会遇到编码出错,不知为什么,使用easy_install安装成功就行了。sudo easy_i...转载 2017-08-27 16:16:19 · 746 阅读 · 0 评论
分享