Gensim构造词向量模型

最新推荐文章于 2024-05-25 14:31:47 发布

Madname

最新推荐文章于 2024-05-25 14:31:47 发布

阅读量957

点赞数

分类专栏：自然语言处理文章标签： gensim CBOW jieba word2vec

本文链接：https://blog.youkuaiyun.com/weixin_43282288/article/details/100553206

版权

1、下载维基百科data

https://dumps.wikimedia.org/zhwiki/20190820/
zhwiki-20190820-pages-articles.xml.bz2
也可以下下面的小的
在这里插入图片描述

2、将bz2内容提取出来

确保安装了gensim pip install gensim

#!/usr/bin/env python
# -*- coding: utf-8  -*-
#将xml的wiki数据转换为text格式

import logging
import os.path
import sys

from gensim.corpora import WikiCorpus

if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])#得到文件名
    logger = logging.getLogger(program)

    logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))

    if len(sys.argv) < 3:
        #print globals()['__doc__'] % locals()
        sys.exit(1)

    inp, outp = sys.argv[1:3]