【大模型实战】使用Gensim训练中文维基百科数据词向量模型

本文链接：https://blog.youkuaiyun.com/chenghao1012/article/details/139144347

【大模型实战】使用Gensim训练中文维基百科数据词向量模型

一、数据预处理
- 1.1 下载维基百科语料库：
- 1.2 把维基百科语料库解析成文本格式
二、繁体字处理
- 2.1 安装方法
- 2.2 运行命令
三、分词
四、运行word2vec训练
五、测试模型

一、数据预处理

1.1 下载维基百科语料库：

资源链接： https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

1.2 把维基百科语料库解析成文本格式

以维基百科的中文网页作为语料库，将xml格式的zhwiki-latest-pages-articles.xml.bz转换为txt格式wiki-zh-article文件，共446709行文本，每行对应一个网页。

from gensim.corpora import WikiCorpus
import multiprocessing

if __name__ == '__main__':
    # 如果你的程序不是被冻结成可执行文件，可以省略下一行
    multiprocessing.freeze_support()

    # 例如，创建并启动进程
    # process = multiprocessing.Process(target=your_function, args=(your_arguments,))
    # process.start()
    space = ""
    with open('wiki-zh-article.txt', 'w', encoding="utf8") as f:
        wiki = WikiCorpus('zhwiki-latest-pages<