NLP入门学习(一):搜狗新闻语料库的获取与预处理

本文档介绍了自然语言处理(NLP)的基本流程,包括获取语料、预处理(清洗、分词)、词向量模型训练。作者使用Python的jieba库进行分词,并通过gensim的word2vec进行词向量训练,展示了如何计算词向量的相似度及应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

今天是2021年10月6日,从9月份开学好像一直什么都没有学习,可能也只有每天刷点力扣题了吧,一天当中很多的时间都浪费了,本来想的是平平淡淡的过完研究生的生活,但好像发现如果一开始的目标就很低的话,那很可能这个目标完成不了,所以说我的目标就是成为优秀毕业生顺利毕业,与此同时希望自己能找到一个好工作。
那么从现在开始,我不仅仅要每天刷力扣题,而且还要准备论文和项目了,java方面的我是不太可能了,因为对此没有一点兴趣,所以还是选择python吧,计算机视觉方面的不管是图像识别、图像分割等等相对来说都是比较成熟的,也很难做出一些什么来,当然,这可能也是我在为自己找借口,但是计算机视觉的应用还是很多的,所以暂时先默认自己会用那些东西了,转战NLP,特别是文本方向。

在这里插入图片描述

入门博客:https://www.jianshu.com/p/b87e01374a65
有帮助的博客:https://blog.youkuaiyun.com/md_Ji/article/details/112688029
语料库:http://www.sogou.com/labs/resource/ca.php(直接下载到本地就行,解压缩就是.dat文件,在python中可以直接读)

中文自然语言处理的基本过程

(一)获取预料

我们下载好搜狗新闻的语料库之后,会发现我们的数据是这样的:

</doc>
<doc>
<url>http://news.163.com/12/0727/13/87E4GD4600014JB5.html</url>
<docno>c3a2c1b2db10c944-b345d9a362314a50</docno>
<contenttitle>宏皓:中国企业如何应对奥运赛场外的"品宣战"</contenttitle>
<content></content>
</doc>

用以下代码读取数据:

import codecs
import re
from tqdm import  tqdm

file_path=r"D:\pythonworkspace\NLP_project\news_tensite_xml.dat"  #原始的语料信息
save_path=r"D:\pythonworkspace\NLP_project\SougouNews_dataset.txt"   #处理后只有文章内容的语料
seg_save_path=r"D:\pythonworkspace\NLP_project\SougouNews_daraset_Seg.txt"   #文章内容分析后的语料

 #read file
print("read news dataset:",file_path)
with open(file_path, encoding='gb18030') as f:
    news_data = f.read().encode('gbk', 'ignore').decode('gbk')
    #print(news_data)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值