
NLP
在路上吗
简单的学习笔记
展开
-
windows系统使用word2vec
想试一试NLP的一些工具,首先是word2vec。刚刚做到“利其器”,记录一下,要“善其事”估计还早吧。懒人专用下载包,分享密码4865,解压无密码,已编译并下载好了训练例集。自己做时,是这样的步骤:首先,下载源码:http://word2vec.googlecode.com/svn/trunk/。其次,编译。对于Visual Studio不含pthread.h的问题,有两种简单的方法原创 2015-06-26 20:06:24 · 5085 阅读 · 0 评论 -
Gensim官方介绍翻译
为了方便自己学习,翻译一下。原文地址:http://radimrehurek.com/gensim/intro.html。Gensim是一个免费的Python库,它可以用来从文档中自动提取语义主题,并且尽可能地做到轻松(对人)高效(对电脑)。Gensim致力于处理原始的、非结构化的数字文本(普通文本)。Gensim中用到的算法,如潜在语义分析(Latent Semantic Analy翻译 2015-07-01 22:24:22 · 8586 阅读 · 5 评论 -
Gensim官方教程翻译(一)——快速入门
为了方便自己学习,翻译了官方的教程,原文:http://radimrehurek.com/gensim/tutorial.html。本教程按照一系列的实例组织,用以突出gensim的各种特征。本教程的受众是熟悉Python,已经安装了gensim,而且阅读过介绍的读者。本教程包括为以下几个部分:语料库与向量空间从字符串到向量语料库流-一次一个文档语料库格式与NumPy和Sc翻译 2015-07-02 13:41:49 · 27737 阅读 · 2 评论 -
Gensim官方教程翻译(二)——语料库与向量空间(Corpora and Vector Spaces)
本文内容:如何利用gensim将文本信息转换为分析用的语料库,以及如何读取/存储语料库。翻译 2015-07-03 11:02:12 · 19990 阅读 · 11 评论 -
Gensim官方教程翻译(四)——相似度查询(Similarity Queries)
本文主要讲述了如何利用gensim将训练好并经过空间转换的空间向量模型进行索引,并应用于计算查询字符串与已索引文档的相似度。翻译 2015-07-03 23:20:41 · 26040 阅读 · 7 评论 -
Gensim官方教程翻译(六)——分布式计算(Distributed Computing)
为何要分布式计算?需要构建一个百万文档级语料库的语义代表,却耗时太~~长?手上有几个可用的闲置计算机?分布式计算力争通过将给定的任务切分为几个小型任务,并将这些任务指派给几台平行的计算机完成来实现加速计算。 本文主要简单介绍了Gensim的分布式计算的使用方法。翻译 2015-07-06 11:12:43 · 5082 阅读 · 0 评论 -
Gensim官方教程翻译(七)——分布式潜在语义分析案例(Distributed Latent Semantic Analysis)
本文主要记录了使用gensim进行分布式潜在语义分析计算的方法。翻译 2015-07-06 21:52:30 · 5138 阅读 · 2 评论 -
Gensim官方教程翻译(五)——英文维基百科的实验
仅供个人学习只用,如有错误,敬请指正。原文地址为了测试gensim的性能,我们在维基百科英文版上运行了一些实验。 这个页面描述了获取与处理维基百科的过程,以便任何人都能再现这个结果。本教程要求已经正确安装了gensim。 译者注:维基百科的内容在不断更新,因此本文的结果仅供参考,可能与实际情况有出入。准备语料库首先,从 http://download.wikimedia.org/enwik翻译 2015-07-05 22:14:32 · 7131 阅读 · 7 评论 -
Gensim官方教程翻译(三)——主题与转换(Topics and Transformations)
gensim官方教程翻译。本篇主要介绍了gensim提供的各种空间向量模型转换方法及其使用。翻译 2015-07-03 15:38:20 · 12664 阅读 · 10 评论