阶段1--语料库和向量
http://radimrehurek.com/gensim/tut1.html
* 建立语料库步骤
1.从字符串==>向量
2.去除停用词;去除出现次数=1的词;
3.(对英文)小写化处理;词干化处理
4.词袋化处理
5.将vector进行Id化处理
至此,语料库已经建立,可以存储起来(实际也是,建立语料库是一个长期而独立的过程,不会和后续的使用结合在一起)
* 语料流的处理优化
- 实际的语料库数据量不小
- 一次只读取一个文件中的vector,
* 语料的格式
* 语料库格式兼容Numpy和Scipy
阶段2--topic处理
使用语料库进行文章的处理
阶段3--相似性查询
阶段4-处理来自wiki的数据
阶段5--分布式模式
http://radimrehurek.com/gensim/distributed.html
* 基于gensim的分布式,对系统交互要求不高,对延迟的容忍性较好
* Numpy中的linear lagebra对时间消耗很大
- 替换的方式:用更快速的 BLAS(Basic Linear Lagebra) 实现,如
Intel的MKL, AMD的ACML, OS X的vecLib,Sun的Sunpref
或者开源的 GotoBLAS,ALTAS
- 检查所用的BLAS库的方法:
python -c 'import scipy; scipy.show_config()'
* gensim基于Pyro(Python Remote Objects,版本>=4.8)通讯
easy install Pyro4

本文详细介绍了从构建语料库到主题处理的全过程,包括语料库的建立、流处理优化、格式兼容性、分布式模式及处理来自wiki的数据等关键步骤。重点突出了如何利用gensim进行文本分析,涵盖了从基础语料库创建到高级主题模型构建的实践应用。
867

被折叠的 条评论
为什么被折叠?



