
语言模型
文章平均质量分 82
JasonLiu1919
微信公众号《小窗幽记机器学习》。却顾所来径,苍苍横翠微。个人微信号:onepieceand
展开
-
LLM系列 | 02: Vicuna简介及模型部署实测
Vicuna-13B是在LLaMa-13B的基础上使用监督数据微调得到的模型,数据集来自于ShareGPT.com产生的用户对话数据,共70K条。使用 GPT-4 作为判断的初步评估表明,Vicuna-13B 达到了 OpenAI ChatGPT 和 Google Bard 90% 以上的质量,同时在>90%的情况下优于 LLaMA 和 Stanford Alpaca 等其他模型。剧透下,后文实测效果,其实吧,还行吧。此外,将冗长的对话分成更小的部分,以适应模型的最大上下文长度。月黑见渔灯,孤光一点萤。原创 2023-04-30 16:53:37 · 11371 阅读 · 1 评论 -
RoBERTa中的merge.txt和vocab.json是什么?
背景在使用其他组织或个人发布的RoBERTa预训练模型时,一般除了模型文件之外还会有merges.txt和vocab.json。相比于BERT只需要一个vocab.txt,为何RoBRETa需要2个?作用是什么?说明Bert采用的是字符级别的BPE编码,直接生成词表文件。Roberta采用的是**byte level的BPE(BBPE)**编码,预训练结果中的merges.txt中存储了BBPE过程中merge得到的所有token,可以简单理解成就是字典。vocab.json则是一个字典中基本单元到索原创 2021-02-03 19:15:08 · 7493 阅读 · 5 评论 -
ICLR 2021 | 微软DeBERTa:SuperGLUE上的新王者
基本信息题目:DeBERTa: Decoding-enhanced BERT with Disentangled Attention机构:微软研究院作者:Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen论文地址:https://arxiv.org/abs/2006.03654论文代码:https://github.com/microsoft/DeBERTa简介Q: 文章要解决的问题是什么?A: 改善 BERT 和 RoBER原创 2021-01-15 23:04:44 · 1207 阅读 · 0 评论 -
“芝麻街”喜添新成员——Big bird
“芝麻街”喜添新成员——Big bird0. 背景题目:Big Bird: Transformers for Longer Sequences机构:Google Research作者:Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed论文地原创 2020-10-09 22:54:51 · 1565 阅读 · 0 评论 -
Google新作synthesizer:Rethinking Self-Attention in Transformer Models
0. 背景机构:Google Research作者:Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng论文地址:https://arxiv.org/abs/2005.007430.1 摘要以当下基于Transformer的各种先进模型来看,使用点积自注意力(dot product self-attention)是至关重要且不可或缺的。但,事实真的如此吗,没有点积自注意力就会不香吗?点积自注意力是否真的不可替代原创 2020-07-19 16:43:30 · 1114 阅读 · 0 评论 -
ICLR2020论文阅读笔记reformer: THE EFFICIENT TRANSFORMER
0. 背景机构:Google Research 、U.C. Berkeley作者:Nikita Kitaev、Łukasz Kaiser、Anselm Levskaya论文地址:https://arxiv.org/abs/2001.04451收录会议:ICLR2020论文代码:https://github.com/google/trax/tree/master/trax/models/reformer0.1 摘要基于Transformer的各种巨型模型在各种自然语言处理任务中常常能够取得最优结原创 2020-05-11 19:46:36 · 1599 阅读 · 1 评论 -
文献阅读笔记:NEZHA(Neural Contextualized Representation for Chinese Language Understanding)
0. 背景机构:华为诺亚方舟实验室作者:Junqiu Wei, Xiaozhe Ren等面向任务:自然语言理解论文地址:https://arxiv.org/abs/1909.00204论文代码:https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA0.1 摘要预训练模型在捕捉深度语境表征方面...原创 2019-12-21 17:55:29 · 3754 阅读 · 0 评论 -
文献阅读笔记:Unsupervised Cross-lingual Representation Learning at Scale(XLM-R)
0. 背景机构:Facebook作者:Alexis Conneau、Kartikay Khandelwal获奖:EMNLP 2019 最佳论文面向任务:跨语言理解论文地址:https://arxiv.org/abs/1911.02116论文代码:https://github.com/pytorch/fairseq官方介绍:https://ai.facebook.com/blog/-x...原创 2019-11-22 20:15:16 · 2715 阅读 · 0 评论 -
文献阅读笔记-ALBERT : A lite BERT for self-supervised learning of language representations
0. 背景机构:谷歌作者:发布地方:ICLR 2020面向任务:自然语言理解论文地址:https://openreview.net/pdf?id=H1eA7AEtvS论文代码:暂未0.1 摘要预训练自然语言表征时,增加模型大小一般是可以提升模型在下游任务中的性能。但是这种纯粹依赖模型尺寸进而期望大力出奇迹的想法在未来会越发困难。进一步增加模型大小将带来以下困难:(1)GPU/TPU...原创 2019-09-29 11:50:43 · 6855 阅读 · 1 评论 -
文献阅读笔记:Glyce2.0(Glyce: Glyph-vectors for Chinese Character Representations)
0. 背景机构:香侬科技作者:Yuxian Meng*, Wei Wu*发布地方:NeurIPS 2019面向任务:Language Representation论文地址:https://arxiv.org/pdf/1901.10125论文代码:https://github.com/ShannonAI/glyce0.1 摘要对于表意文字(logographic,又称语素文字,在非正...原创 2019-09-12 16:39:17 · 1079 阅读 · 0 评论 -
文献阅读笔记:RoBERTa:A Robustly Optimized BERT Pretraining Approach
0. 背景机构:Facebook & 华盛顿大学作者:Yinhan Liu 、Myle Ott发布地方:arxiv论文地址:https://arxiv.org/abs/1907.11692论文代码:https://github.com/pytorch/fairseq1. 介绍RoBERTa 模型是BERT 的改进版(从其名字来看,A Robustly Optimized BE...原创 2019-09-09 16:39:09 · 14093 阅读 · 5 评论 -
文献阅读:ERNIE 2.0
0. 背景机构:百度作者:Yu Sun, Shuohuan Wang发布地方:arxiv面向任务:Natural Language Understanding论文地址:https://arxiv.org/abs/1907.12412论文代码:https://github.com/PaddlePaddle/ERNIE/0-1. 摘要预训练语言模型带来NLP领域的巨大飞跃就无需多言了,...原创 2019-09-05 14:19:52 · 5017 阅读 · 1 评论 -
文献阅读笔记:Deep contextualized word representations(ELMo)
0. 背景机构:Allen 人工智能研究所 & 华盛顿大学作者:Paul G发布地方:arxiv、NAACL 2018面向任务:word representation论文地址:https://arxiv.org/abs/1802.05365论文代码:https://github.com/allenai/bilm-tf。顺便安利该研究所的https://github.com/al...原创 2019-08-31 21:12:04 · 1248 阅读 · 0 评论 -
文献阅读笔记:Cross-lingual Language Model Pretraining
0.背景机构:Facebook作者:Guillaume Lample、 Alexis Conneau发布地方:arxiv面向任务:Language Understanding论文地址:https://arxiv.org/abs/1901.07291论文代码:https://github.com/facebookresearch/XLM0-1 摘要最近的研究已经证明了生成预训练对于英...原创 2019-07-23 18:08:33 · 6354 阅读 · 1 评论 -
文献阅读笔记:XLNet: Generalized Autoregressive Pretraining for Language Understanding
0.背景机构:谷歌大脑、CMU作者:Zhilin Yang、Zihang Dai发布地方:arxiv面向任务:Language Understanding论文地址:https://arxiv.org/abs/1904.09482论文代码:https://github.com/zihangdai/xlnet0-1. 摘要由于上下文双向建模的表达能力更强,降噪自编码类型中的典型代表BE...原创 2019-06-29 20:17:17 · 2281 阅读 · 1 评论 -
文献阅读笔记:Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context
0.背景机构:CMU、谷歌大脑作者:Zihang Dai、Zhilin Yang发布地方:arxiv面向任务:Language Understanding论文地址:https://arxiv.org/abs/1901.02860论文代码:https://github.com/kimiyoung/transformer-xl0-1 摘要Transformer具有学习长程依赖关系的潜力...原创 2019-07-03 17:09:44 · 2929 阅读 · 3 评论 -
文献阅读:Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Under
0.背景机构:微软亚洲研究院 NLP 组与 SDRG(微软雷德蒙德语音对话研究组)作者:Xiaodong Liu、Pengcheng He发布地方:arxiv面向任务:知识蒸馏论文地址:https://arxiv.org/abs/1904.09482论文代码:https://github.com/namisan/mt-dnn0.摘要尽管集成学习能够提升模型性能,且目前已被广泛地应用...原创 2019-05-23 10:46:36 · 1626 阅读 · 0 评论 -
文献阅读:MT-DNN模型
背景机构:微软亚洲研究院 NLP 组与 SDRG(微软雷德蒙德语音对话研究组)作者:Xiaodong Liu、Pengcheng He发布地方:arxiv面向任务:自然语言理解任务(NLU)的学习表示论文地址:https://arxiv.org/abs/1901.11504论文代码(非官方):https://github.com/namisan/mt-dnn更多代码版本参见:http...原创 2019-05-16 18:07:01 · 3298 阅读 · 0 评论 -
Transformer学习笔记
0-背景机构:Google 大脑作者:Ashish Vaswani等发表会议:NIPS2017面向任务:机器翻译论文地址:https://arxiv.org/abs/1706.03762论文代码:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/transformer.py本文主要...原创 2019-01-26 18:26:07 · 3618 阅读 · 3 评论