
语言模型
睡熊猛醒
千里之行,始于足下。
展开
-
赛尔实验室新作:如何使用选择机制提升自注意力网络能力
给大家介绍一篇今天刚看到的“小巧精致”的paper,论文的核心思想就是在自注意力阶段加入了选择机制,使得自注意力更加集中,可以作为通用手段用于各种自注意力的模型中提升效果,值得一看。paper: https://www.aclweb.org/anthology/2020.acl-main.269.pdfcode:https://github.com/xwgeng/SSAN(2020-08-29日,还未放出)原文地址:https://mp.weixin.qq.com/s/lHGe_sQsxfV..转载 2020-08-29 23:04:54 · 1601 阅读 · 0 评论 -
几种改进的embedding算法之代码实现
原理篇:https://blog.youkuaiyun.com/weixin_41089007/article/details/106604465前段时间写了一篇关于几种改进的embedding算法的代码原创 2020-06-17 11:55:01 · 1775 阅读 · 1 评论 -
几种改进的embedding方法
最近看论文的时候发现好几篇改进词向量的小论文,方法虽然不复杂但是都挺有意思的,可能在工业界的某些任务上有奇效,分享一下~1.平均加权词向量paper:https://arxiv.org/abs/2002.05606方法先,分别用word2vec和glove计算出各个单词的词向量,后将其归一化:其中,d代表word2vec或者glove词向量的尺寸d1或d2,w是word2vec或glove算法输出的单词的向量,表示归一化的单词向量。 然后将评论的评论向量r计算为标准化单词向量的平均值原创 2020-06-07 18:21:13 · 3106 阅读 · 0 评论 -
GPT-3:Language Models are Few-Shot Learners 论文解读
paper链接:https://arxiv.org/abs/2005.14165github链接:https://github.com/openai/gpt-3摘要通过对大量文本进行预训练,然后对特定任务进行微调,最近的工作证明了在许多NLP任务和基准方面的巨大收获。尽管在结构上通常与任务无关,但是此方法仍然需要特定于任务的微调数据集,该数据集包含成千上万个示例。相比之下,人类通常只能通过几个示例或简单的指令来执行新的语言任务——当前的NLP系统在很大程度上仍难以做到这一点。在这里,我们证明了扩原创 2020-06-02 17:43:31 · 21874 阅读 · 3 评论 -
使用未标注数据训练BERT
说来惭愧,BERT等预训练模型用来做下游任务做了这么久了,居然一直不知道怎么用未标注数据训练它们,这里以BERT为例子介绍一下如何使用自己的未标注数据快速训练预训练模型。其实也很简单,BERT的github上面就有:https://github.com/google-research/bert分为两步,第一步:准备一个txt文件,这个文件就是你要训练BERT的自己的数据。训练的目的其实就是...原创 2020-04-18 12:40:53 · 3795 阅读 · 0 评论 -
FastBERT:具有自适应推断时间的自蒸馏BERT
FastBERT: a Self-distilling BERT with Adaptive Inference Time写在前面:这是北大+腾讯+北师大的ACL2020。作者提出了一种新的inference速度提升方式,sample-wise adaptive mechanism,相比单纯的student蒸馏有更高的确定性,且可以自行权衡效果与速度,简单实用。这篇论文的方法可以说就是为了...原创 2020-04-10 17:26:59 · 2721 阅读 · 2 评论 -
论文阅读笔记:《自然语言处理中的预训练模型》
Pre-trained Models for Natural Language Processing: A Survey写在前面:随着2018年ELMo、BERT等模型的发布,NLP领域进入了“大力出奇迹”的时代。采用大规模语料上进行无监督预训练的深层模型,在下游任务数据上微调一下,即可达到很好的效果。曾经需要反复调参、精心设计结构的任务,现在只需简单地使用更大的预训练数据、更深层的模型便...原创 2020-04-08 21:41:45 · 5678 阅读 · 1 评论 -
使用BERT进行情感分析
年前最后一篇,就写个自己使用BERT的流程步骤,提前祝大家新年快乐~## STEP1:构建模型class Config(object): """配置参数""" def __init__(self, dataset): self.model_name = 'bert' self.train_path = dataset + '/data/tr...原创 2019-12-28 21:35:19 · 4357 阅读 · 6 评论 -
ERNIE的掩码机制代码解析
我们知道,相较于BERT,ERNIE最大的改进就是中文 + 短语/实体掩码(这个短语掩码的操作后来也被BERT采用训练出了WWM-BERT),所以我们首先来看看ERNIE的掩码机制是怎么样实现的。构建序列与标记分词边界信息这一步的输出是一个 txt 文件:每个样本由5个 ‘;’ 分隔的字段组成,数据格式:token_ids; sentence_type_ids; position_...原创 2019-12-22 21:33:31 · 1937 阅读 · 0 评论 -
ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 论文翻译
文前总结:ERNIE2.0的亮点:1.融合了持续学习(continual Learning)、多任务学习、知识引入等多种套路。2.构造的任务可以分为三类:1) word-aware tasks用于教模型捕捉词汇信息(lexical information);2) structure-aware task教模型捕捉句法信息(syntactic information);3) semant...翻译 2019-12-21 21:39:46 · 1625 阅读 · 0 评论 -
ERNIE: Enhanced Representation through Knowledge Integration(百度)论文翻译
paper:https://arxiv.org/pdf/1904.09223.pdfcode:https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE文前总结ERNIE相比于BERT,做出了如下改进:1.mask策略。BERT只使用了字级别的随机masking,但是ERNIE使用了字、实体、短语三个级别的masking,旨在使模...翻译 2019-12-21 10:54:02 · 4254 阅读 · 0 评论 -
Smaller, faster, cheaper, lighter: Introducing DistilBERT, a distilled version of BERT 翻译
paper:https://arxiv.org/pdf/1910.01108v2.pdfcode:https://github.com/huggingface/transformersTime: 2019.10在过去的18个月中,在过去的18个月中,几乎所有的自然语言处理任务都从大型语言模型进行迁移学习这一方式达到了SOTA效果。通常基于Vaswani等人的Transformer体...翻译 2019-12-15 22:20:33 · 746 阅读 · 0 评论