GloVe使用心得

最新推荐文章于 2025-11-21 11:12:27 发布

原创最新推荐文章于 2025-11-21 11:12:27 发布 · 1w 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #GloVe

NLP 专栏收录该内容

4 篇文章

订阅专栏

介绍GloVe词向量生成方法及其在Ubuntu环境下的使用步骤，对比gensim中的word2vec，讨论不同规模语料对内存的要求。

部署运行你感兴趣的模型镜像

GloVe是斯坦福大学提出的一种新的词矩阵生成的方法，综合运用词的全局统计信息和局部统计信息来生成语言模型和词的向量化表示。官方主页：http://nlp.stanford.edu/projects/glove/，本文将作者发表的文章和代码打包一并上传，供大家下载学习。

这里主要介绍一下在Ubuntu环境下的使用方法。

首先，将下载的GloVe-1.2压缩文件解压到任意目录下，然后打开终端，定位到GloVe-1.2目录下，输入make命令（确保安装了gcc），将生成了一个built的文件夹

然后，将需要处理的文本数据拷贝到该目录下（方便后续处理），将名字改为corpus.txt（可以不改，但是改了之后便于后续的操作）。

接着，在终端中依次运行vocab_count、cooccur、shuffle和glove（运行方法是输入 ./ 加相应文件名）。建议先输入不带参数的程序，程序将会给出 Example usage，然后按照格式输入相应的参数，建议名字与Example usage中一致，保证后续命令的正确性（这也是建议改名的原因）。

需要注意的是，在运行glove时，对内存要求比较高，1.4G的语料，20G的内存都无法运行，一直死机；后面降到300M的语料，20G的内存基本上能够运行。而gensim中的word2vec，对于1.4G的语料，20G完全可以运行，而且只需要几个小时就能跑出结果。

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

博客等级

码龄10年

8
原创

7
点赞

6
收藏

2
粉丝

关注

私信

热门文章

分类专栏

ipa解析 1篇
python 1篇
数据库学习
NLP 4篇
ubuntu 1篇

上一篇：: 统计自然语言学习笔记（Manning）：第1章

下一篇：: ubuntu 安装使用 Keras 手扎

最新文章

AI算力推荐

Qwen3-VL-8B

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

图文对话

Qwen3-VL

目录

展开全部

收起

AI算力推荐

Qwen3-VL-8B

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

图文对话

Qwen3-VL

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。