gensim-5个学习阶段

最新推荐文章于 2025-09-13 09:10:59 发布

转载最新推荐文章于 2025-09-13 09:10:59 发布 · 1.7k 阅读

·

0

·

NLP/DeepLearning 同时被 2 个专栏收录

319 篇文章

订阅专栏

36 篇文章

订阅专栏

本文详细介绍了从构建语料库到主题处理的全过程，包括语料库的建立、流处理优化、格式兼容性、分布式模式及处理来自wiki的数据等关键步骤。重点突出了如何利用gensim进行文本分析，涵盖了从基础语料库创建到高级主题模型构建的实践应用。

阶段1--语料库和向量

http://radimrehurek.com/gensim/tut1.html

* 建立语料库步骤

1.从字符串==>向量

2.去除停用词；去除出现次数=1的词；

3.(对英文)小写化处理；词干化处理

4.词袋化处理

5.将vector进行Id化处理

至此，语料库已经建立，可以存储起来(实际也是，建立语料库是一个长期而独立的过程，不会和后续的使用结合在一起)

* 语料流的处理优化

- 实际的语料库数据量不小

- 一次只读取一个文件中的vector，

* 语料的格式

* 语料库格式兼容Numpy和Scipy

阶段2--topic处理

使用语料库进行文章的处理

阶段3--相似性查询

阶段4-处理来自wiki的数据

阶段5--分布式模式

http://radimrehurek.com/gensim/distributed.html

* 基于gensim的分布式，对系统交互要求不高，对延迟的容忍性较好

* Numpy中的linear lagebra对时间消耗很大

- 替换的方式：用更快速的 BLAS(Basic Linear Lagebra) 实现，如

Intel的MKL, AMD的ACML, OS X的vecLib,Sun的Sunpref

或者开源的 GotoBLAS,ALTAS

- 检查所用的BLAS库的方法：

python -c 'import scipy; scipy.show_config()'

* gensim基于Pyro(Python Remote Objects，版本>=4.8)通讯

easy install Pyro4

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。