NLP入门学习（一）：搜狗新闻语料库的获取与预处理

最新推荐文章于 2021-10-21 23:59:53 发布

dreamlpx

最新推荐文章于 2021-10-21 23:59:53 发布

阅读量6.6k

点赞数 6

分类专栏： NLP入门学习文章标签：自然语言处理 python

本文链接：https://blog.youkuaiyun.com/dreamlpx/article/details/120628593

版权

本文档介绍了自然语言处理（NLP）的基本流程，包括获取语料、预处理（清洗、分词）、词向量模型训练。作者使用Python的jieba库进行分词，并通过gensim的word2vec进行词向量训练，展示了如何计算词向量的相似度及应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

今天是2021年10月6日，从9月份开学好像一直什么都没有学习，可能也只有每天刷点力扣题了吧，一天当中很多的时间都浪费了，本来想的是平平淡淡的过完研究生的生活，但好像发现如果一开始的目标就很低的话，那很可能这个目标完成不了，所以说我的目标就是成为优秀毕业生顺利毕业，与此同时希望自己能找到一个好工作。
那么从现在开始，我不仅仅要每天刷力扣题，而且还要准备论文和项目了，java方面的我是不太可能了，因为对此没有一点兴趣，所以还是选择python吧，计算机视觉方面的不管是图像识别、图像分割等等相对来说都是比较成熟的，也很难做出一些什么来，当然，这可能也是我在为自己找借口，但是计算机视觉的应用还是很多的，所以暂时先默认自己会用那些东西了，转战NLP，特别是文本方向。

在这里插入图片描述

入门博客：https://www.jianshu.com/p/b87e01374a65
有帮助的博客：https://blog.youkuaiyun.com/md_Ji/article/details/112688029
语料库：http://www.sogou.com/labs/resource/ca.php（直接下载到本地就行，解压缩就是.dat文件，在python中可以直接读）

中文自然语言处理的基本过程

（一）获取预料

我们下载好搜狗新闻的语料库之后，会发现我们的数据是这样的：

</doc>
<doc>
<url>http://news.163.com/12/0727/13/87E4GD4600014JB5.html</url>
<docno>c3a2c1b2db10c944-b345d9a362314a50</docno>
<contenttitle>宏皓：中国企业如何应对奥运赛场外的＂品宣战＂</contenttitle>
<content></content>
</doc>

用以下代码读取数据：

import codecs
import re
from tqdm import  tqdm

file_path=r"D:\pythonworkspace\NLP_project\news_tensite_xml.dat"  #原始的语料信息
save_path=r"D:\pythonworkspace\NLP_project\SougouNews_dataset.txt"   #处理后只有文章内容的语料
seg_save_path=r"D:\pythonworkspace\NLP_project\SougouNews_daraset_Seg.txt"   #文章内容分析后的语料

 #read file
print("read news dataset:",file_path)
with open(file_path, encoding='gb18030') as f:
    news_data = f.read().encode('gbk', 'ignore').decode('gbk')
    #print(news_data)

最低0.47元/天解锁文章