
NLP学习
yuexiaomao
这个作者很懒,什么都没留下…
展开
-
NLTK缺少数据
在使用NLTK的时候经常缺少数据,并且不能下载,很是蛋疼。后来发现一个简单的方法:1、进入https://github.com/nltk/nltk_data/tree/gh-pages/packages/corpora找到缺少的文件2、下载1中的文件3、一般是用的时候都会用提示,比如下面的代码回报错:from nltk.corpus import stopwordsstopwords.words('english')LookupError:****************..原创 2021-01-22 08:51:48 · 499 阅读 · 2 评论 -
【论文笔记electra】ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
代码:https://huggingface.co/transformers/model_doc/electra.htmlABSTRACT论文提出了一种高效的基于抽样的预训练任务——替换标记检测。对于一些可以被替换的tokens,用一个小生成网络(generator network )抽样出token进行替换。接着,作者没有用模型从原始语料库中预测这些被替换的词,而是训练了一个判别模型(discriminative model ),来判断输入中的token是不是被生成网络替换了。新模型.原创 2020-10-29 17:18:29 · 517 阅读 · 0 评论 -
【nlp论文笔记】 Glyce: Glyph-vectors for Chinese Character Representations
Abstract本文贡献:我们使用中国历史文字(如青铜器文字、篆书、繁体字等)来丰富文字的象形证据; 设计适合中文字符图像处理的CNN结构(称为天泽-CNN); 将图像分类作为多任务学习的辅助任务,以提高模型的泛化能力。作者表明,基于符号的模型能够在广泛的中文NLP任务中始终优于基于字/字符的模型。我们能够为各种中文NLP任务设置最新的结果,包括标记(NER、CWS、POS)、句子对分类、单句分类任务、依赖解析和语义角色标记。例如,所提出的模型在NER的OntoNotes数据集上的F.原创 2020-10-14 09:16:34 · 538 阅读 · 0 评论 -
【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition
本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文。 神经网络的解释:The forward pass com- putes a weighted sum of their inputs from the previous layer and pass the result through a non-linear function. The backward pass is to co...原创 2020-10-09 15:15:52 · 2649 阅读 · 2 评论 -
pack_padded_sequence torch说明
## Minimal tutorial on packing and unpacking sequences in pytorch.> This is a fork from [@Tushar-N 's gist](https://gist.github.com/Tushar-N/dfca335e370a2bc3bc79876e6270099e). I have added comments and extra diagrams that should (hopefully) make it e.转载 2020-09-22 14:13:30 · 455 阅读 · 0 评论 -
GELU 激活函数
GELU的全称是GAUSSIAN ERROR LINEAR UNIT与Sigmoids相比,像ReLU,ELU和PReLU这样的激活可以使神经网络更快更好地收敛。此外,Dropout通过将一些激活数乘以0来规范化模型。以上两种方法共同决定了神经元的输出。但是,两者彼此独立工作。GELU旨在将它们结合起来。另外,称为Zoneout的新RNN正则化器将输入随机乘以1。我们希望通过将...翻译 2020-01-19 14:52:32 · 3680 阅读 · 0 评论 -
Bert代码解读记录
代码学习的是前一篇博客中pytorch的代码的BertForTokenClassification模型,run的是ner例子:https://github.com/huggingface/transformers/blob/master/examples/run_ner.py。1、模型概览:使用的模型是:multi_cased_L-12_H-768_A-12.zip,https://git...原创 2020-01-18 16:13:04 · 785 阅读 · 1 评论 -
关于Bert的常见问答列表
原文:https://yashuseth.blog/2019/06/12/bert-explained-faqs-understand-bert-working/推荐一篇中文博客介绍bert的:https://kknews.xyz/282bert实现:tf:https://github.com/google-research/bertpytorch:https://github.c...转载 2020-01-17 11:06:16 · 392 阅读 · 1 评论