
文献阅读之家
文章平均质量分 90
text segmention/pretraining/cross-lingual/machine translation
Muasci
keep open
keep real
keep smiling
不要忘记命运掌握在自己的手里,确保做的每一件事,都是自己选择去做的,成为时间这敌人的主宰,成为自己的存在。记得常怀愤怒,并把它转化成热情,选择一切、拥抱一切、坚持一切、把一切视作敌人、战胜一切。<----曾经的发言( ╯□╰ )
展开
-
[文献阅读] Sparsity in Deep Learning: Pruning and growth for efficient inference and training in NN
论文地址:https://arxiv.org/abs/2102.00554sparse model的精确度和计算性能随稀疏程度的变化,分别如下图的绿\红所示。实现模型稀疏化需要存储的数据格式,如下面的bitmap就是存储一个模型参数个数大小的0/1矩阵,作为mask。前三种如下图所示。略略模型的稀疏模式视输入样本而定略computers和brains的不同:略《Soft Threshold Weight Reparameterization for Learnable Sparsity》......原创 2022-06-29 16:39:56 · 1854 阅读 · 0 评论 -
[文献阅读]—Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges
前言论文链接:https://arxiv.org/abs/1907.05019v1背景介绍多语言机器翻译虽然能够1. 减少计算、部署成本;2. 对低、零资源语言产生正向迁移,但也存在容量不足、参数干扰的问题。从映射的角度看,m2o翻译是multi-domain问题;o2m翻译是multi-task问题。考虑一个语种,在一个多语言模型中,该语种受两个力的影响:1. transfer:相似语种之间的正向迁移;2. interference:模型容量、参数干扰带来的负面影响。低资源语种往往1>2,原创 2022-01-03 15:28:37 · 755 阅读 · 0 评论 -
[文献阅读]—Deep Transformers with Latent Depth
前言论文地址:https://proceedings.neurips.cc/paper/2020/file/1325cdae3b6f0f91a1b629307bf2d498-Paper.pdf前人工作&存在问题由于transformer在多语言MT、跨语言PT、和多任务上的应用,模型容量需要被扩大。然而,transformer不是越深越好(梯度消失)。具体的,在多语言\任务上,如何增大模型容量,同时保证语言、任务之间有正向的迁移,是一个开放的命题。本文贡献训练隐变量,用隐变量的采样来选原创 2021-12-25 23:51:31 · 1613 阅读 · 0 评论 -
[文献阅读]—An Empirical Investigation of Word Alignment Supervision for Zero-Shot Multilingual NMT
前言论文地址https://aclanthology.org/2021.emnlp-main.664.pdf前人工作&存在问题在多语言机器翻译中,前人通过1. 在source端开头加入language tag;2. 给token embedding加上language embedding来给模型提供语种信息。有两个缺点:语言信息不强,被忽略之后,target端翻译出错误的语种。(原文说的是对于没有见过的语言对的off-target问题)训练的稳定性不强本文贡献本文考虑langua原创 2021-12-17 15:40:43 · 231 阅读 · 0 评论 -
[文献阅读]—Revisiting Language Encoding in Learning Multilingual Representations
前言论文地址:https://arxiv.org/abs/2102.08357代码地址:https://github.com/lsj2408/XLP前人工作&存在问题在多语言机器翻译中,前人通过1. 在source端开头加入language tag;2. 给subword embedding加上language embedding来给模型提供语种信息。经过本文实验发现,之前的方法不能很好地描述单词-语种之间的交互,而是反映了一个单词在一个语种中的出现频率。具体来说:language原创 2021-12-17 14:25:31 · 599 阅读 · 0 评论 -
[文献阅读]—Importance-based Neuron Allocation for Multilingual Neural Machine Translation
前言代码地址:https://github.com/ictnlp/NA-MNMT论文地址:https://aclanthology.org/2021.acl-long.445.pdf前人工作&存在问题在多语言上训练的MNMT描述了常识(general knowledge),而忽略了语言独立的知识。为了达到平衡,前人:language-specific模块(缺点:1. 增加了模型参数;2. 需要人工定制化,所以可用性不强):attention模块解耦的encoder、decoder原创 2021-12-10 00:46:58 · 1883 阅读 · 0 评论 -
[文献阅读]—一篇不错的低资源机器翻译综述(Neural Machine Translation for Low-Resource Languages: A Survey)
前言论文地址:https://arxiv.org/abs/2106.15115v1时间线1947:Warren Weaver提出了机器翻译的可能性1954:IBM发明了word-for-word翻译系统技术数据增强(data augmentation)主要包含:1. 基于单词和短语替换产生伪平行语料的方法;2. 基于回译产生伪平行语料的方法;3. 基于多语言预训练模型挖掘平行语料的方法基于单词、短语替换的数据增强(坑1)利用双语词典,替换选定句子的所有单词或稀有词,产生对应翻译[119]原创 2021-12-06 12:00:28 · 3653 阅读 · 0 评论 -
[文献阅读]—Probing Pretrained Language Models for Lexical Semantics
前言论文地址:https://aclanthology.org/2020.emnlp-main.586.pdf前人工作&存在问题预训练模型包含丰富信息,但问题是:预训练模型中的单词是否还包含了单词独立的、single的、type-level的、lexical的信息?关于这一点的探究工作较少。本文贡献本文使用5个词汇任务来探究预训练模型中的词汇信息:lexical semantic similarity(LSIM):单语,斯皮尔曼系数,计算单词对的人为评估和cosine相似度之间的相关原创 2021-11-27 16:52:05 · 842 阅读 · 0 评论 -
[文献阅读]—Explicit Cross-lingual Pre-training for Unsupervised Machine Translation
前言论文地址:https://aclanthology.org/D19-1071.pdf代码地址:https://github.com/Imagist-Shuo/CMLM(空)前人工作&存在问题初始化对UNMT很重要,最近的预训练模型基于共享的BPE,以一种不显式、局限的方式学习跨语言信息,具体表现在:以BPE为单位的预训练完成了BPE级别的对齐,n-gram可能不对齐不同语种的BPE共享情况不同本文贡献使用外部的n-gram对齐工具创建n-gram对齐table;使用mask原创 2021-11-27 14:29:01 · 815 阅读 · 0 评论 -
[文献阅读]—Reusing a Pretrained Language Model on Languages with Limited Corpora for Unsupervised NMT
前言论文地址:https://aclanthology.org/2020.emnlp-main.214.pdf代码地址:https://github.com/alexandra-chron/relm_unmt前人工作&存在问题对于高单语资源(HMR)和低单语资源(LMR)之间的UNMT,直接在共享词表上做预训练初始化效果不好。本文贡献通过先在HMR上预训练,再在LMR+HMR上"fine-tune"的方式,完成UNMT的初始化。具体方法第一步:在HMR上预训练LM第二步:在HMR原创 2021-11-25 23:29:01 · 426 阅读 · 0 评论 -
[文献阅读]—Improving the Lexical Ability of Pretrained Language Models for Unsupervised NMT
前言论文地址:https://aclanthology.org/2021.naacl-main.16.pdf代码地址:https://github.com/alexandra-chron/lexical_xlm_relm前人工作&存在问题在双语翻译情境中,前人工作发现BLI指标(bilingual lexicon induction)和翻译结果关系很强,而《Probing Pretrained Language Models for Lexical Semantics》一文发现静态的cro原创 2021-11-25 22:16:24 · 393 阅读 · 0 评论 -
[文献阅读]—Unsupervised Neural Machine Translation with Universal Grammar
前言论文地址:https://aclanthology.org/2021.emnlp-main.261/前人工作&存在问题UNMT:使用iterative BT来构造伪并行语料,而BT所产生的并行语料质量是UNMT训练的一个关键。UG(universal grammar):不同语种的句子共享句法结构,可能会给UNMT训练带去更好的监督。共享constituent labelconstituent label的重叠(overlap)MLM:mlm可以和句法结合起来(constM原创 2021-11-22 11:18:12 · 979 阅读 · 0 评论 -
[文献阅读]—When and Why is Unsupervised Neural Machine Translation Useless?
前言论文地址:https://aclanthology.org/2020.eamt-1.5.pdf前人工作&存在问题先前的UNMT方法都是在高资源的语言对上评估,没有实际意义。前人UNMT的主要框架:Initialization:在单词级别,使用cross-lingual词嵌入初始化;在句子级别,使用cross-lingual的序列训练初始化的整个encoder-decoder对模型初始化DAE:初始化后,BT之前,模型需要、但缺少reorder(attention层)和g原创 2021-11-22 09:37:44 · 306 阅读 · 0 评论 -
[文献阅读]—MASS: Masked Sequence to Sequence Pre-training for Language Generation
前言论文地址:https://arxiv.org/abs/1905.02450代码地址:https://github.com/microsoft/MASS前人工作&存在问题预训练+微调可以缓解特定下游任务语料不足的缺陷,如ELMO\GPT\BERT。但是BERT模型是为NLU任务设计的。也有一些为NLG任务设计的预训练模型,如:利用一个语言模型或者自编码器来预训练encoder和decoder(效果没有BERT好);设计了一个句子重排任务(只为encoder做预训练);XLM为e原创 2021-11-19 15:51:56 · 1016 阅读 · 0 评论 -
[文献阅读]—SHARE OR NOT? LEARNING TO SCHEDULE LANGUAGE-SPECIFIC CAPACITY FOR MULTILINGUAL TRANSLATION
前言论文地址:https://openreview.net/forum?id=Wj4ODo0uyCF代码地址:https://github.com/bzhangGo/zero/blob/iclr2021_clsr前人工作&存在问题早期的研究关注于增加模型share(迁移、transfer)的能力:做法在one2many translation中共享encoder在many2one translation中共享decoder在many2many translation中共享sub原创 2021-11-18 21:04:26 · 571 阅读 · 0 评论 -
[文献阅读]—Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation
前言论文地址:代码地址:前人工作&存在问题本文贡献具体方法具体实验原创 2021-11-18 14:19:59 · 558 阅读 · 1 评论 -
[文献阅读]—Learning Language Specific Sub-network for Multilingual Machine Translation
前言论文地址:https://arxiv.org/pdf/2105.09259v1.pdf代码地址:https://github.com/NLP-Playground/LaSS前人工作&存在问题前人发现:多语言NMT的一大问题是模型容量的不足(参数冲突(parameter interference)),特别是高资源的语言对的性能会下降。对于这个问题有以下改善策略:扩大模型容量定义language-aware的模型组成部分把隐藏层细胞分成共享的、语言独立的适应层(adaption原创 2021-11-12 13:09:22 · 1128 阅读 · 0 评论 -
[文献阅读]—Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation
前言论文地址:https://arxiv.org/pdf/1611.04558v1.pdf代码地址:无233前人工作&存在问题前人实现multilingual NMT的方法:为每一个target语言定义一个单独的decoder和attention(one2many)为每一个source语言定义一个单独的encoder和attention(many2one)为每一个source语言定义一个encoder,每一个target语言定义一个decoder,使用一个shared attent原创 2021-11-11 17:25:19 · 1603 阅读 · 0 评论 -
[文献阅读]—Language Models are Good Translators
前言论文地址:https://arxiv.org/abs/2106.13627前人工作&存在问题encoder更有效:TSN19去掉了encoder-decoder中的encoder,发现encoder对于NMT是很关键的;WLX+19和WTSL20发现增大encoder的容量比decoder更有效。但还是基于encoder和decoder的架构。encoder和decoder的对齐:KBCF19发现多语言NMT中encoder和decoder的边界是模糊的;HTX+18共享了encode原创 2021-11-02 14:16:49 · 394 阅读 · 0 评论 -
[文献阅读]—Unsupervised Cross-lingual Representation Learning at Scale
前言论文地址:https://arxiv.org/pdf/1911.02116v1.pdf代码地址:https://github.com/facebookresearch/XLM前人工作&存在问题前人工作使用跨语言的模型迁移,在NLI\QA\NER等benchmark上取得好的结果;预训练词向量->上下文的表示->跨语言的理解(即:单个模型能够同时处理多种语言)。但它们都在维基百科上做的预训练,语料还是不够大。和本文最像的工作是:Massively Multilingual原创 2021-10-24 21:06:58 · 801 阅读 · 0 评论 -
[文献阅读]—Cross-lingual Language Model Pretraining
前言论文链接:https://arxiv.org/abs/1901.07291代码链接:https://github.com/facebookresearch/XLM前人工作与存在问题预训练语言模型(transformer encoder)对下游任务有帮助:分类任务:Improving Language Understanding by Generative Pre-TrainingBERT: Pre-training of Deep Bidirectional Transformers原创 2021-10-21 20:32:18 · 517 阅读 · 0 评论 -
[文献阅读]——CLINE: Contrastive Learning with Semantic Negative Examples for NLU
前言为了解决PLM的低鲁棒性,前人工作的首要目的在于,小幅度改变输入,但不改变标签,存在的问题是:由于NLP的离散性,小幅度的改变可能带来语义上面的很大变化,先前的方法在提高鲁棒性的同时,对于语义的变化不敏感。本文的贡献:采用先导实验验证了前人工作中存在的问题提出了一个既能提高PLM鲁棒性又能提高敏感度的训练方法方法样例的生成给定一个原始句子xorix^{ori}xori,使用spaCy进行分词,再进行POS(part of speech tagging),得到词性。通过更换同义词(syn原创 2021-08-13 12:38:52 · 472 阅读 · 0 评论 -
[文献阅读]——Exploring Human Gender Stereotypes with Word Association Test
#GCN(Random walk)对于对称拉普拉斯中使用的度矩阵D的逆平方根,我的理解:首先,直接用D的逆去乘邻接矩阵,肯定是可以的,就是做了行归一化。而原文中使用的D的逆平方根的话…实际算下来,可能是要让对称位置的值尽可能相似吧(至少分母上是完全一致的)。而作者给出的解释是:dynamics get more interesting when we use a symmetric normalization(动力学上更有趣???)#概率统计(皮尔逊系数、显著性检验、置信区间)#KNN度量原创 2021-07-12 13:24:17 · 313 阅读 · 0 评论 -
[文献阅读]——AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION
目录引言相关工作:模型预训练微调两个变体:实验拓展阅读引言细粒度方法和粗粒度方法各自的优缺点:细粒度:作为词汇单元是不完整的但更容易去学习(更少的token types和更多的tokens)不存在分词的错误粗粒度:作为词汇单元是完整的但不容易去学习(更多的token types和更少的tokens)存在分词的错误本文通过可视化attention maps表明:细粒度的方法得到的attention存在“含糊”粗粒度的方法得到的attention更加合理,但分词错误不原创 2021-05-12 10:32:03 · 285 阅读 · 1 评论 -
[文献阅读]——ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for NLU(TBC)
引言BERT的缺点:BERT的MLM关注细粒度文本单元的表示(word\subword\characters),而很少考虑粗粒度的语言学上的信息(命名实体\短语\中文的单词)前人进一步的工作:独立地掩膜、预测连续的n-grams(命名实体、短语、text spans)本文的观点:前人关于n-grams的工作忽略了n-grams内部的依赖特别的,给定一个被掩膜的n-grams w={x1,x2,...xnx_1,x_2,...x_nx1,x2,...xn},x∈VFx∈V_Fx∈原创 2021-05-11 01:24:45 · 2661 阅读 · 3 评论 -
[文献阅读]——SpanBERT: Improving Pre-training by Representing and Predicting Spans
d原创 2021-05-06 12:59:27 · 674 阅读 · 0 评论 -
[文献阅读]——Deep contextualized word representations
引言高质量的单词表示注重建模单词的语法、语义特征(由浅层网络捕捉)单词的上下文特征(一词多义、polysemy)(由深层网络捕捉)传统的词嵌入:通过整个输入句子的函数,来给每一个token分配一个向量表示(what?只支持单一的、上下文无关的词向量表示改进的词嵌入:使用子词信息来丰富特征给每一个word sense而不是word学习一个单词的向量EMLo的词嵌入:使用language model训练目标,使用深层的双向LSTM通过使用 character convoluti原创 2021-05-04 14:09:45 · 287 阅读 · 3 评论 -
[文献阅读]——Improving Language Understanding by Generative Pre-Training
目录引言相关工作半监督学习无监督预训练联合训练目标模型无监督的预训练有监督的微调不同任务的输入实验引言工作的意义:由于标注数据的缺少,能够直接从未标注数据中提取语言学信息的模型十分重要实验表明,在大量的有监督任务中,引入无监督信息能够带来性能的提升(word embedding)比word-level更高级别的信息不容易被提取:优化函数得不到统一,训练任务各异大多都是task-specific,且使用了复杂的学习机制和联合学习目标,所以没有很好的迁移能力本文的贡献:提出了一种半监原创 2021-04-26 12:28:42 · 753 阅读 · 0 评论 -
[文献阅读]——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
目录引言相关工作无监督的、基于特征的方法无监督的、微调的方法模型基础介绍预训练BERTTASK1:Masked LMTASK2:Next Sentence Prediction(NSP)微调BERT实验拓展阅读引言预训练模型运用在下游任务的两种方式feature-based:EMLofine-tuning:GPT目前的技术的缺陷是: 单向。对于句子级别的任务是:次优的对于token级别的任务是:有害的本文的贡献:使用masked language model(MLM) pre-t原创 2021-04-23 12:36:08 · 418 阅读 · 0 评论 -
Pre-trained Models for Natural Language Processing: A Survey阅读笔记(TBC)
前言邱锡鹏人物画像第一章。Introductiondifferent neural networks proposed:CNNRNNGNNattention mechanismNeural methods use low-dimensional and dense vectors(aka. distributed representation) in NLP tasks.Unlike CV field, there is less performance improvement in原创 2021-03-28 13:35:51 · 491 阅读 · 0 评论 -
Hierarchical Macro Discourse Parsing Based on Topic Segmentation阅读笔记
[相关信息]标题:《Hierarchical Macro Discourse Parsing Based on Topic Segmentation》作者:Feng Jiang, Yaxin Fan, Xiaomin Chu, Peifeng Li, Qiaoming Zhu∗, Fang Kong会议:2021-AAAI[代码地址]暂无[知识储备]话题分割、篇章分析目录一、背景与概览1.1 相关研究1.2 贡献点1.3 相关工作二、模型Preparing Data for Topic Se原创 2021-03-26 19:54:23 · 365 阅读 · 0 评论 -
Dependency-based syntax-aware word representations阅读笔记
[yygq]不会吧?不会吧?我也配看这篇论文???[标题]Dependency-based syntax-aware word representations它的父亲:[代码地址]https://github.com/zhangmeishan/DepSAWR[知识储备]什么是异质性:什么是constituenc[一些问题]Tree-RNN and Tree-Linearization approaches是什么?目录一、背景与概览1.0 引言1.1 相关研究1.2 贡献点1.3 相关原创 2021-03-09 19:53:51 · 333 阅读 · 0 评论 -
Macro Discourse Relation Recognition via Discourse Argument Pair Graph阅读笔记
[标题]《Macro Discourse Relation Recognition via Discourse Argument Pair Graph》[代码地址]无[知识储备]目录一、背景与概览1.1 相关研究1.2 贡献点1.3 相关工作二、模型2.0 概括2.1 建图2.1.0 节点表示2.1.1 连边2.1.2 图的构建2.2 模型2.0 输入层2.1 编码层2.2 分类层三、实验与评估四、消融实验五、结论与个人总结一、背景与概览1.1 相关研究无1.2 贡献点首次使用gnn于原创 2021-02-24 15:39:57 · 177 阅读 · 0 评论 -
Text Level Graph Neural Network for Text Classification阅读笔记
[标题]Text Level Graph Neural Network for Text Classification[代码地址]https://github.com/LindgeW/TextLevelGNN(大佬复现的pytorch代码,但效果不佳)[知识储备]什么是TextGCN?目录一、背景与概览1.1 相关研究1.2 贡献点1.3 相关工作二、模型2.1 建图2.2 MPM消息传递机制2.3 training object三、实验与评估四、结论与个人总结五、参考六、拓展一、背景与概览原创 2021-02-11 14:47:44 · 380 阅读 · 0 评论 -
Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks论文理解
[标题]《Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks》[代码地址]https://github.com/CRIPAC-DIG/TextING[知识储备]什么是GNN(Graph Neural Networks)?目录一、背景与概览1.1 相关研究1.2 贡献点1.3 相关工作二、模型2.1 Graph Construction2.2 Graph-based W原创 2021-02-08 15:53:55 · 815 阅读 · 2 评论 -
Relational Graph Attention Network for Aspect-based Sentiment Analysis论文理解
[标题]《Relational Graph Attention Network for Aspect-based Sentiment Analysis》[代码地址]https://github.com/shenwzh3/RGAT-ABSA目录一、背景与概览1.1 相关研究1.2 贡献点1.3 相关工作二、模型2.1 attention还是syntax2.2 以aspect为方向的依赖树2.3 GAT(Graph Attention Network)2.4 RGAT(Relational Graph原创 2021-02-07 17:56:56 · 1783 阅读 · 3 评论 -
Improving Context Modeling in Neural Topic Segmentation原码解读
前言项目地址https://github.com/lxing532/improve_topic_seg环境配置常用库照着textseg配bert-as-servicepackage&file:pip install bert-serving-server # server pip installbert-serving-client # client, independent of bert-serving-serverpython -m pip install tensor原创 2021-01-28 00:26:59 · 402 阅读 · 5 评论 -
话题分割模型综述,看这一篇就够了(TBC)
前言本文总结了十多篇话题分割领域的论文的主要方法,并最后总结归纳了所有数据集、模型性能。《Text Segmentation as a Supervised Learning Task》原码解读:https://blog.youkuaiyun.com/jokerxsy/article/details/109237492github链接:https://github.com/koomri/text-segmentation数据集链接:https://www.dropbox.com/sh/k3jh0fjby原创 2021-01-26 20:28:35 · 5353 阅读 · 5 评论 -
《Text Segmentation as a Supervised Learning Task》原码解读
文章目录项目地址实操配置环境数据运行原码解读建立datasetinitgetitemlen建立dataloadercollate_fn模型的建立模型的计算流程明确输入extendsentence paddingsentence encoderdocument paddingdocument encoder输出总结接下去的工作项目地址Text Segmentation as a Supervised Learning Task实操这里介绍如何跑它的原码。配置环境python2.7conda原创 2020-10-23 15:30:33 · 2558 阅读 · 15 评论 -
Distributed Representations of Words and Phrases and their Compositionality翻译与感悟
paper地址:Distributed Representations of Words and Phrases and their Compositionality-Tomas Mikolov翻译:摘要最近发布的连续型Skip-gram,对于学习高质量分布式向量表述,是一个非常搞笑的模型,它描述了大量精确的语法语义方面的词语关系。在这篇论文中,我们将陈述数个延展,将会推进向量的质量和训...原创 2020-03-02 21:19:05 · 1140 阅读 · 0 评论