前言
今天是2021年10月6日,从9月份开学好像一直什么都没有学习,可能也只有每天刷点力扣题了吧,一天当中很多的时间都浪费了,本来想的是平平淡淡的过完研究生的生活,但好像发现如果一开始的目标就很低的话,那很可能这个目标完成不了,所以说我的目标就是成为优秀毕业生顺利毕业,与此同时希望自己能找到一个好工作。
那么从现在开始,我不仅仅要每天刷力扣题,而且还要准备论文和项目了,java方面的我是不太可能了,因为对此没有一点兴趣,所以还是选择python吧,计算机视觉方面的不管是图像识别、图像分割等等相对来说都是比较成熟的,也很难做出一些什么来,当然,这可能也是我在为自己找借口,但是计算机视觉的应用还是很多的,所以暂时先默认自己会用那些东西了,转战NLP,特别是文本方向。
入门博客:https://www.jianshu.com/p/b87e01374a65
有帮助的博客:https://blog.youkuaiyun.com/md_Ji/article/details/112688029
语料库:http://www.sogou.com/labs/resource/ca.php(直接下载到本地就行,解压缩就是.dat文件,在python中可以直接读)
中文自然语言处理的基本过程
(一)获取预料
我们下载好搜狗新闻的语料库之后,会发现我们的数据是这样的:
</doc>
<doc>
<url>http://news.163.com/12/0727/13/87E4GD4600014JB5.html</url>
<docno>c3a2c1b2db10c944-b345d9a362314a50</docno>
<contenttitle>宏皓:中国企业如何应对奥运赛场外的"品宣战"</contenttitle>
<content></content>
</doc>
用以下代码读取数据:
import codecs
import re
from tqdm import tqdm
file_path=r"D:\pythonworkspace\NLP_project\news_tensite_xml.dat" #原始的语料信息
save_path=r"D:\pythonworkspace\NLP_project\SougouNews_dataset.txt" #处理后只有文章内容的语料
seg_save_path=r"D:\pythonworkspace\NLP_project\SougouNews_daraset_Seg.txt" #文章内容分析后的语料
#read file
print("read news dataset:",file_path)
with open(file_path, encoding='gb18030') as f:
news_data = f.read().encode('gbk', 'ignore').decode('gbk')
#print(news_data)