
NLP
文章平均质量分 75
开开_王子
逆风的方向更适合飞翔,我不怕万人阻挡,只怕自己投降。
展开
-
利用bert进行文本分类
1、任务及数据集描述 实现利用bert预训练模型进行中文新闻分类,使用的数据集情况: 其中,train.txt, dev.txt, test.txt内容格式为每一行为“内容 Tab 标签”: class.txt内容为10类的新闻标签,如上面的0就代表finance这一类。 2、bert模型准备 (1)下载bert中文预训练模型chinese_L-12_H-768_A-12,解压后里面包含5个...原创 2020-01-13 17:51:11 · 6987 阅读 · 7 评论 -
利用英文wiki数据训练Doc2vec模型
1、语料库准备 从此处下载英文维基百科数据,是xml压缩包的形式,下载文件,以enwiki-latest-pages-articles1.xml-p10p30302.bz2为例: 由于是压缩包,所以需要进行预处理,变成文本的形式。在cmd下切换到这个压缩包文件存放的目录下,运行命令: python process_wiki.py enwiki-latest-pages-articles1.xml-...原创 2018-10-28 00:35:19 · 4496 阅读 · 13 评论