一、 准备环境和语料: 新闻20w+篇(格式:标题。正文) 【新闻可以自己从各大新闻网站爬取,也可以下载开源的新闻数据集,如 互联网语料库(SogouT) 中文文本分类数据集THUCNews 李荣陆英文文本分类语料 谭松波中文文本分类语料 等 结巴分词 word2vec 二、分词 先对新闻文本进行分词,使用的是结巴分词工具,将分词后的文本保存在s