
NLP
中科小白
这个作者很懒,什么都没留下…
展开
-
如何将中文文档语料训练成词向量
准备需要训练的原始语料 在这里,我们采用docx文档作为原始语料: 如图所示,这些文档是我用到的语料。 将语料转换为txt文件格式 代码如下: import os import docx def docx_to_txt(): # 打开文件 files = os.listdir('./corpus') with open('corpus.txt', 'w+', encoding='utf-8') as f: for file_name in file原创 2020-12-22 21:33:47 · 2446 阅读 · 7 评论 -
bert模型代码运行文档
#1. 了解Bert是什么,找到原始文章和源码 BERT,全称是Bidirectional Encoder Representations from Transformers,是一种预训练语言表示的新方法。 Bert是2018年由Google AI团队开源的NLP模型,引起业内巨大反响,因为其在多项NLP任务上均超过当前的state-of-the-art。 Bert的原始论文为《BE...原创 2019-08-27 19:14:32 · 1218 阅读 · 0 评论 -
一些github项目分享
NLP 刘知远的NLP研究入门之道:https://github.com/zibuyu/research_tao 自然语言处理进展跟踪:https://github.com/sebastianruder/NLP-progress 影评情感分析(LSTM+attention):https://github.com/bingshen/kaggle_emotion_classify 信息抽取:...原创 2019-09-30 17:22:49 · 294 阅读 · 0 评论