
Bert
文章平均质量分 71
及时行樂_
方向:航空数据异常/攻击检测及分析,欢迎私信交流,共同进步~
展开
-
【论文泛读198】通过输入空间转换利用 BERT 进行多模态目标情感分类
贴一下汇总贴:论文阅读记录论文链接:《Exploiting BERT For Multimodal Target SentimentClassification Through Input Space Translation》一、摘要多模态目标/方面情感分类结合了多模态情感分析和方面/目标情感分类。该任务的目标是结合视觉和语言来理解句子中对目标实体的情感。Twitter 是该任务的理想设置,因为它本质上是多模态的、高度情绪化的,并且会影响现实世界的事件。然而,多模态推文很短,并且伴随着复杂的、可能不相原创 2021-08-07 20:32:14 · 838 阅读 · 2 评论 -
【论文泛读200】通过适配器使用预训练语言模型进行稳健的迁移学习
贴一下汇总贴:论文阅读记录论文链接:《Robust Transfer Learning with Pretrained Language Models through Adapters》一、摘要使用大型预训练的基于 Transformer 的语言模型(如 BERT)进行迁移学习已成为大多数 NLP 任务的主要方法。简单地在下游任务上微调这些大型语言模型或将其与特定于任务的预训练相结合通常并不可靠。特别是,随着随机种子变化或预训练和/或微调迭代次数的变化,性能会有很大差异,并且微调模型容易受到对抗性攻击原创 2021-08-07 20:17:48 · 496 阅读 · 0 评论 -
【论文泛读199】将预训练的 Transformers 微调为变分自动编码器
贴一下汇总贴:论文阅读记录论文链接:《Finetuning Pretrained Transformers into Variational Autoencoders》一、摘要文本变分自动编码器 (VAE) 因后验崩溃而臭名昭著,这种现象是模型的解码器学会忽略来自编码器的信号。因为众所周知,富有表现力的解码器会加剧后部崩溃,所以 Transformer 作为文本 VAE 的组件的采用有限。现有的研究将 Transformers 合并到文本 VAE 中(Li 等人,2020 年;Fang 等人,2021原创 2021-08-07 20:01:39 · 1107 阅读 · 0 评论 -
【论文泛读187】使用 BERT 基于阿拉伯语方面的情感分析
贴一下汇总贴:论文阅读记录论文链接:《Arabic aspect based sentiment analysis using BERT》一、摘要基于方面的情感分析(ABSA)是一种文本分析方法,它定义了与特定目标相关的某些方面的观点的极性。关于ABSA的大部分研究是用英语进行的,少量工作是用阿拉伯语进行的。大多数先前的阿拉伯语研究依赖于深度学习模型,该模型主要依赖于与上下文无关的单词嵌入(例如,word2vec),其中每个单词都有独立于其上下文的固定表示。本文从预先训练的语言模型(如BERT)中探索原创 2021-07-31 12:51:29 · 653 阅读 · 0 评论 -
【论文泛读181】疫情期间的情绪分析和检测
贴一下汇总贴:论文阅读记录论文链接:《When a crisis strikes: Emotion analysis and detection during COVID-19》一、摘要自然灾害、全球流行病和社会动荡等危机不断威胁着我们的世界,并以不同的方式影响着全世界数百万人的情感。了解人们在大规模危机中表达的情绪有助于让决策者和急救人员了解民众的情绪状态,并为需要这种支持的人提供情感支持。我们展示了 CovidEmo,大约 1K 条带有情感标签的推文。我们研究了大型预训练语言模型在 COVID-1原创 2021-07-27 18:01:57 · 421 阅读 · 0 评论 -
【论文泛读180】反向翻译任务自适应预训练:提高文本分类的准确性和鲁棒性
贴一下汇总贴:论文阅读记录论文链接:《Back-Translated Task Adaptive Pretraining: Improving Accuracy and Robustness on Text Classification》一、摘要在大型文本语料库上预训练并在下游文本语料库上进行微调并在下游任务上进行微调的语言模型 (LM) 已成为若干自然语言处理 (NLP) 任务的事实上的训练策略。最近,一种使用任务相关数据重新训练预训练语言模型的自适应预训练方法显示出显着的性能改进。然而,由于用于重原创 2021-07-27 17:54:24 · 778 阅读 · 0 评论 -
【论文泛读178】通过对比对抗训练改进文本分类
贴一下汇总贴:论文阅读记录论文链接:《Improved Text Classification via Contrastive Adversarial Training》一、摘要我们提出了一种简单而通用的方法来规范基于Transformer的编码器的微调,用于文本分类任务。具体来说,在微调过程中,我们通过扰动模型的单词嵌入来生成对立示例,并对干净的和对立的示例执行对比学习,以便教导模型学习噪声不变的表示。通过对干净的和敌对的例子以及额外的对比目标的训练,我们观察到相对于干净例子的标准微调的一致改进。在原创 2021-07-27 17:30:20 · 1170 阅读 · 0 评论 -
【论文泛读176】具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射
贴一下汇总贴:论文阅读记录论文链接:《Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and Isometric Conditions》一、摘要通常,线性正交变换映射是通过对齐静态类型级嵌入来构建共享语义空间来学习的。鉴于上下文嵌入包含更丰富的语义特征的分析,我们通过利用并行语料库研究了上下文感知和无字典映射方法。我们说明,我们的上下文嵌入空间映射通过提供更高程度的同构性,在双语词典归纳 (BDI) 任务上显着优原创 2021-07-21 21:34:13 · 454 阅读 · 0 评论 -
【论文泛读167】使用 BERT 语言模型的大规模新闻分类:Spark NLP 方法
贴一下汇总贴:论文阅读记录论文链接:《Large-Scale News Classification using BERT Language Model: Spark NLP Approach》一、摘要基于 NLP 的大数据分析的兴起增加了大规模文本处理的计算负担。NLP 面临的问题是非常高维的文本,因此需要很高的计算资源。MapReduce 允许大型计算的并行化,并可以提高文本处理的效率。本研究旨在基于深度学习方法研究大数据处理对 NLP 任务的影响。我们通过微调 BERT 使用的预训练模型对大量新原创 2021-07-17 18:20:52 · 698 阅读 · 1 评论 -
【论文泛读166】深度神经网络在阅读理解过程中进化出类人的注意力分布
贴一下汇总贴:论文阅读记录论文链接:《Deep Neural Networks Evolve Human-like Attention Distribution during Reading Comprehension》一、摘要注意是生物大脑和许多最先进的深度神经网络 (DNN) 中信息选择的关键机制。在这里,我们调查了人类和 DNN 在阅读文本段落以随后回答特定问题时是否以类似的方式分配注意力。我们分析了 3 个基于转换器的 DNN,它们在训练执行阅读理解任务时达到人类水平的性能。我们发现 DNN原创 2021-07-17 17:57:37 · 275 阅读 · 3 评论 -
【论文泛读159】CANDLE:分解面向任务的对话系统的条件查询和连接查询
贴一下汇总贴:论文阅读记录论文链接:《CANDLE: Decomposing Conditional and Conjunctive Queries for Task-Oriented Dialogue Systems》一、摘要特定领域的对话系统通常依靠主要关注单个动作句子的句子级分类器来确定用户意图。此类分类器并非旨在有效处理由表示多个操作的条件和顺序子句组成的复杂查询。我们尝试将此类查询分解为较小的单动作子查询,这些子查询对于意图分类器在对话管道中理解是合理的。我们发布了 CANDLE(条件和与类原创 2021-07-11 00:00:56 · 270 阅读 · 0 评论 -
【论文泛读158】时间感知古汉语文本翻译与推理
贴一下汇总贴:论文阅读记录论文链接:《Time-Aware Ancient Chinese Text Translation and Inference》一、摘要在本文中,我们旨在解决围绕中国古代文本翻译的挑战:(1)由于时代差异导致的语言差异导致翻译质量不佳,以及(2)大多数翻译缺少上下文信息这对于理解文本通常非常重要。为此,我们通过提出以下建议来改进过去的翻译技术:我们将任务重新构建为多标签预测任务,其中模型预测翻译及其特定时代。我们观察到这有助于弥合语言鸿沟,因为时间顺序上下文也被用作辅助信息。原创 2021-07-10 23:50:06 · 332 阅读 · 0 评论 -
【论文泛读155】对文本类型的对抗性攻击实验
贴一下汇总贴:论文阅读记录论文链接:《Experiments with adversarial attacks on text genres》一、摘要基于预先训练的变形金刚的神经模型,如BERT或XLM-RoBERTa,证明了SOTA在许多自然语言处理任务中的结果,包括非主题分类,如体裁识别。然而,通常这些方法对测试文本的微小改动表现出较低的可靠性。一个相关的问题涉及训练语料库中的主题偏见,例如,特定体裁中特定主题的单词的流行可以欺骗体裁分类器识别该体裁中关于该主题的任何文本。为了缓解可靠性问题,本文原创 2021-07-07 19:15:12 · 399 阅读 · 0 评论 -
【论文泛读152】R2D2:基于可微分树的递归变换器,用于可解释的分层语言建模
贴一下汇总贴:论文阅读记录论文链接:《R2D2: Recursive Transformer based on Differentiable Tree for Interpretable Hierarchical Language Modeling》一、摘要人类语言理解在多个粒度级别(例如,单词、短语和句子)上运行,并且可以分层组合的抽象级别越来越高。然而,现有的具有堆叠层的深层模型并没有明确地对任何类型的分层过程进行建模。本文提出了一种基于可微 CKY 风格二叉树的递归 Transformer 模型原创 2021-07-05 18:47:52 · 601 阅读 · 0 评论 -
【论文泛读148】ChineseBERT:通过字形和拼音信息增强的中文预训练
贴一下汇总贴:论文阅读记录论文链接:《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》一、摘要最近的中文预训练模型忽略了中文特有的两个重要方面:字形和拼音,它们为语言理解携带重要的句法和语义信息。在这项工作中,我们提出了 ChineseBERT,它将汉字的 {\it glyph} 和 {\it pinyin} 信息合并到语言模型预训练中。字形嵌入是基于汉字的不同字体获得的,能够从视觉特征中捕捉字符语义,原创 2021-07-01 22:44:50 · 1743 阅读 · 0 评论 -
【论文泛读144】探索语境中词义的表征:以同义词和同义词为例
贴一下汇总贴:论文阅读记录论文链接:《Exploring the Representation of Word Meanings in Context: A Case Study on Homonymy and Synonymy》一、摘要本文介绍了语境中词义表征的多语种研究。我们评估静态模型和语境化模型充分表现不同词汇语义关系的能力,如同形异义和同义关系。为此,我们创建了一个新的多语言数据集,允许我们对几个因素进行受控评估,如周围环境的影响或单词之间的重叠,传达相同或不同的含义。对四种情景的系统评估表原创 2021-06-29 00:24:48 · 547 阅读 · 0 评论 -
【论文泛读142】Sentence-BERT:使用 Siamese BERT-Networks 的句子嵌入
贴一下汇总贴:论文阅读记录论文链接:《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》一、摘要BERT (Devlin et al., 2018) 和 RoBERTa (Liu et al., 2019) 在语义文本相似性 (STS) 等句子对回归任务上取得了新的最先进的性能。然而,它需要将两个句子都输入网络,这会导致大量的计算开销:在 10,000 个句子的集合中找到最相似的一对需要使用 BERT 进行大约 5000 万次原创 2021-06-25 18:10:31 · 524 阅读 · 0 评论 -
【论文泛读138】BARTScore:将生成的文本评估为文本生成
贴一下汇总贴:论文阅读记录论文链接:《BARTScore: Evaluating Generated Text as Text Generation》一、摘要各种各样的 NLP 应用程序,例如机器翻译、摘要和对话,都涉及文本生成。这些应用程序面临的一个主要挑战是如何评估此类生成的文本是否真正流畅、准确或有效。在这项工作中,我们将生成文本的评估概念化为文本生成问题,使用预训练的序列到序列模型进行建模。一般的想法是,当生成的文本更好时,训练模型将生成的文本转换为参考输出或源文本将获得更高的分数。我们使用原创 2021-06-23 19:28:14 · 2331 阅读 · 0 评论 -
【论文泛读137】LV-BERT:利用 BERT 的层多样性
贴一下汇总贴:论文阅读记录论文链接:《LV-BERT: Exploiting Layer Variety for BERT》一、摘要现代预训练语言模型主要建立在以交错顺序堆叠自注意力和前馈层的主干上。在本文中,除了这种刻板的层模式之外,我们的目标是通过从两个方面利用层多样性来改进预训练模型:层类型集和层顺序。具体来说,除了原始的自注意力和前馈层之外,我们将卷积引入到层类型集中,实验发现这对预训练模型有益。此外,除了原始的交错顺序之外,我们探索更多的层顺序以发现更强大的架构。然而,引入的层多样性导致了超原创 2021-06-23 19:10:41 · 322 阅读 · 1 评论 -
【论文泛读135】脱离上下文:基于方面情感分析的上下文建模的新线索
贴一下汇总贴:论文阅读记录论文链接:《Out of Context: A New Clue for Context Modeling of Aspect-based Sentiment Analysis》一、摘要基于方面的情感分析(ABSA)旨在预测评论中对给定方面的情感表达。ABSA的核心是对上下文和给定方面之间的交互进行建模,以提取与方面相关的信息。在以往的研究中,人们普遍采用注意机制和依赖图网络来获取上下文和给定方面之间的关系。并将上下文隐藏状态的加权和作为最终反馈给分类器的表示。然而,与给定方原创 2021-06-22 11:44:33 · 451 阅读 · 3 评论 -
【论文泛读123】跨语言情感检测
贴一下汇总贴:论文阅读记录论文链接:《Cross-lingual Emotion Detection》一、摘要情绪检测对于理解人类非常重要。构建带注释的数据集来训练自动化模型的成本可能很高。我们探索了跨语言方法的功效,这些方法将使用源语言的数据来构建目标语言中的情感检测模型。我们比较了三种方法,即:i) 使用固有的多语言模型;ii) 将训练数据翻译成目标语言;iii) 使用自动标记的平行语料库。在我们的研究中,我们将英语作为源语言,阿拉伯语和西班牙语作为目标语言。我们研究了不同分类模型的有效性,例如使原创 2021-06-17 21:06:49 · 361 阅读 · 0 评论 -
【论文泛读126】BERT 句子表示的自引导对比学习
贴一下汇总贴:论文阅读记录论文链接:《Self-Guided Contrastive Learning for BERT Sentence Representations》一、摘要尽管 BERT 及其变体已经重塑了 NLP 格局,但仍不清楚如何最好地从此类预训练的 Transformer 中导出句子嵌入。在这项工作中,我们提出了一种对比学习方法,该方法利用自我指导来提高 BERT 句子表示的质量。我们的方法以自我监督的方式微调 BERT,不依赖于数据增强,并使通常的 [CLS] 标记嵌入能够用作句子向原创 2021-06-17 21:28:50 · 908 阅读 · 2 评论 -
【论文泛读121】边际效用递减:探索BERT知识蒸馏的最小知识
贴一下汇总贴:论文阅读记录论文链接:《Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation》一、摘要最近,知识蒸馏(KD)在 BERT 压缩方面取得了巨大成功。研究人员发现 BERT 隐藏层中包含的丰富信息有利于学生的表现,而不是像传统 KD 那样只从教师的软标签中学习。为了更好地利用隐藏知识,一种常见的做法是强迫学生以分层的方式深度模仿老师所有令牌的隐藏状态。然而,原创 2021-06-11 17:10:38 · 383 阅读 · 0 评论 -
【论文泛读118】使用上下文嵌入模型获得更好的静态词嵌入
贴一下汇总贴:论文阅读记录论文链接:《Obtaining Better Static Word Embeddings Using Contextual Embedding Models》一、摘要上下文词嵌入的出现 - 结合来自上下文的语义和句法信息的单词表示 - 已经导致对各种 NLP 任务的巨大改进。然而,最近的上下文模型在许多用例中具有令人望而却步的高计算成本,并且通常难以解释。在这项工作中,我们证明了我们提出的蒸馏方法是基于 CBOW 的训练的简单扩展,可以显着提高 NLP 应用程序的计算效率,原创 2021-06-11 16:48:06 · 519 阅读 · 0 评论 -
【论文泛读115】多样化的预训练上下文编码改进了文档翻译
贴一下汇总贴:论文阅读记录论文链接:《Diverse Pretrained Context Encodings Improve Document Translation》一、摘要我们提出了一种新架构,用于通过合并多个预训练文档上下文信号来适应句子级序列到序列转换器,并评估 (1) 生成这些信号的不同预训练方法对翻译性能的影响,(2) 并行的数量文档上下文可用的数据,以及 (3) 以源上下文、目标上下文或源上下文和目标上下文为条件。NIST 汉英、IWSLT 和 WMT 英德任务的实验支持四个一般性结论原创 2021-06-08 21:47:37 · 235 阅读 · 0 评论 -
【论文泛读105】Transformer中微调与组合的相互作用
贴一下汇总贴:论文阅读记录论文链接:《On the Interplay Between Fine-tuning and Composition in Transformers》一、摘要预训练的 Transformer 语言模型在各种 NLP 任务上表现出卓越的性能。然而,最近的研究表明,这些模型中的短语级表示反映了词汇内容的重大影响,但缺乏复杂的、组合短语信息的证据。在这里,我们研究了微调对上下文嵌入的能力的影响,以捕获超出词汇内容的短语含义信息。具体来说,我们对具有高词汇重叠的对抗性释义分类任务和情原创 2021-06-01 15:42:04 · 277 阅读 · 0 评论 -
【论文泛读104】使用上下文词表示进行语义框架归纳的动词意义聚类
贴一下汇总贴:论文阅读记录论文链接:《Verb Sense Clustering using Contextualized Word Representations for Semantic Frame Induction》一、摘要语境化的词表示已被证明对各种自然语言处理任务很有用。然而,尚不清楚这些表示可以在多大程度上覆盖手工编码的语义信息,例如语义框架,这些语义框架指定了与谓词相关的参数的语义角色。在本文中,我们专注于根据上下文唤起不同框架的动词,我们研究了上下文化的词表示如何识别同一动词引起的框原创 2021-05-31 10:35:43 · 415 阅读 · 0 评论 -
【论文泛读103】文本摘要的噪声一致性训练
贴一下汇总贴:论文阅读记录论文链接:《Noised Consistency Training for Text Summarization》一、摘要神经抽象摘要方法通常需要大量标记的训练数据。然而,由于时间、财务和专业知识的限制,标记大量摘要数据通常是令人望而却步的,这限制了摘要系统在实际应用中的实用性。在本文中,我们认为可以通过半监督方法克服这种限制:一致性训练,即利用大量未标记数据来提高小语料库上监督学习的性能。一致性正则化半监督学习可以将模型预测正则化为对应用于输入文章的小噪声保持不变。通过添加原创 2021-05-31 10:22:40 · 488 阅读 · 0 评论 -
【论文泛读100】利用多模式信息有助于中文拼写检查
贴一下汇总贴:论文阅读记录论文链接:《Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking》一、摘要中文拼写检查(CSC)旨在检测和纠正用户生成的中文文本的错误字符。大多数中文拼写错误在语义,语音或图形上均被误用。先前的尝试注意到了这种现象,并尝试将相似性用于此任务。但是,这些方法使用启发式方法或手工制作的混淆集来预测正确的字符。在本文中,我们直接利用汉字的多模式信息,提出了一种中文拼原创 2021-05-27 11:12:40 · 633 阅读 · 0 评论 -
【论文泛读98】情感感知对话响应生成和分类的多任务学习
贴一下汇总贴:论文阅读记录论文链接:《Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response Generation》一、摘要为了使计算机自然地与人互动,它必须像人一样。在本文中,我们提出了一种以生成和分类的多任务学习为重点的神经反应生成模型,重点是情感。我们基于BART的模型(Lewis等人,2020年)是经过预先训练的变压器编码器/解码器模型,经过训练可以生成响应并同时识别情绪。原创 2021-05-26 13:07:05 · 846 阅读 · 0 评论 -
【论文泛读97】建立具有情感原因的在线移情聊天机器人
贴一下汇总贴:论文阅读记录论文链接:《Towards an Online Empathetic Chatbot with Emotion Causes》一、摘要现有的感知情绪的会话模型通常着重于控制响应内容以与特定的情绪类别保持一致,而同理心则是理解和关注他人的感受和经历的能力。因此,至关重要的是要了解引起用户情感的原因,即移情反应,又称情感原因。为了收集在线环境中的情感原因,我们利用咨询策略并开发了一个善解人意的聊天机器人来利用因果情感信息。在真实的在线数据集上,我们通过使用自动指标,基于专家的人工原创 2021-05-26 12:55:01 · 544 阅读 · 0 评论 -
【论文泛读95】一石二鸟:窃取模型并从基于BERT的API推断属性
贴一下汇总贴:论文阅读记录论文链接:《Killing Two Birds with One Stone: Stealing Model and Inferring Attribute from BERT-based APIs》一、摘要预训练模型(例如BERT,XLNET等)的进步在很大程度上改变了各种现代自然语言处理任务的预测性能。这使公司可以通过将基于BERT的微调模型封装为商业API来提供机器学习即服务(MLaaS)。但是,先前的工作发现了基于BERT的API中的一系列漏洞。例如,基于BERT的A原创 2021-05-25 15:07:19 · 573 阅读 · 0 评论 -
【论文泛读91】走向新闻文章中目标依赖的情感分类
贴一下汇总贴:论文阅读记录论文链接:《Towards Target-dependent Sentiment Classification in News Articles》一、摘要有关目标依赖的情感分类(TSC)的广泛研究已在某些领域中表现出出色的分类性能,在这些领域中,作者倾向于明确表达对特定实体或主题的情感,例如在评论或社交媒体中。尽管新闻在个人和社会决策中是必不可少的信息来源,但我们仍在新闻报道中研究TSC,而新闻报道的研究领域却很少。本文介绍NewsTSC,这是一个手动注释的数据集,用于探索新原创 2021-05-21 11:21:49 · 286 阅读 · 0 评论 -
【论文泛读92】地理问答:挑战,独特性,分类和未来方向
贴一下汇总贴:论文阅读记录论文链接:《Geographic Question Answering: Challenges, Uniqueness, Classification, and Future Directions》一、摘要作为人工智能的一个重要组成部分,问答旨在为自然语言中的问题生成答案。尽管在开放领域的问题回答方面已经取得了实质性的进展,但问答系统仍然在努力回答涉及地理实体或概念以及需要空间操作的问题。本文讨论了地理问答问题。我们首先通过分析地理问题的挑战来研究地理问题难以回答的原因。我们原创 2021-05-21 11:00:08 · 247 阅读 · 0 评论 -
【论文泛读90】结合GCN和变压器进行中文语法错误检测
贴一下汇总贴:论文阅读记录论文链接:《Combining GCN and Transformer for Chinese Grammatical Error Detection》一、摘要本文在NLPTEA-2020任务:中文语法错误诊断(CGED)中介绍了我们的系统。CGED旨在诊断四种类型的语法错误,即遗漏单词(M),冗余单词(R),不良单词选择(S)和无序单词(W)。CGED自动系统包括错误检测和错误校正两部分,我们的系统旨在解决错误检测问题。我们的系统基于三种模型:1)利用语法信息的基于BERT原创 2021-05-20 16:53:02 · 736 阅读 · 1 评论 -
【论文泛读89】使用SpanBERT改进不同文本类型上的不良药物事件提取
贴一下汇总贴:论文阅读记录论文链接:《Improving Adverse Drug Event Extraction with SpanBERT on Different Text Typologies》一、摘要近年来,互联网用户在社交媒体,博客和健康论坛上报告了不良药品事件(ADE)。由于报告数量众多,药物警戒正在寻求诉诸NLP来监控这些销售点。我们首次建议将SpanBERT架构用于ADE提取任务:流行的BERT转换器的这一新版本显示了具有多令牌文本跨度的改进功能。我们通过对具有不同文本类型(推文和原创 2021-05-20 16:45:30 · 383 阅读 · 0 评论 -
【论文泛读85】基于上下文的句子相似度
贴一下汇总贴:论文阅读记录论文链接:《Sentence Similarity Based on Contexts》一、摘要现有的衡量句子相似度的方法面临两个挑战:(1)标记数据集通常规模有限,使其不足以训练监督型神经模型;(2)由于没有在训练时显式建模句子级语义,因此基于无监督语言建模(LM)的模型在计算句子之间的语义分数时存在训练测试缺口。这会导致该任务的性能降低。在这项工作中,我们提出了一个解决这两个问题的新框架。所提出的框架基于这样的核心思想:一个句子的含义应由其上下文定义,并且可以通过比较在相原创 2021-05-18 13:31:40 · 636 阅读 · 0 评论 -
【论文泛读84】使用BERT适配器的Lexicon增强中文序列标记
贴一下汇总贴:论文阅读记录论文链接:《Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter》一、摘要词典信息和经过训练的模型(例如BERT)由于其各自的优势而被组合用于探索中文序列标记任务。但是,现有方法仅通过浅层和随机初始化的序列层融合词汇特征,而没有将其集成到BERT的底层。在本文中,我们提出了用于中文序列标签的Lexicon增强BERT(LEBERT),它通过Lexicon适配器层将外部词典知识直接集成到BERT层中。与现有原创 2021-05-18 13:23:52 · 1684 阅读 · 6 评论 -
【论文泛读82】上下文嵌入空间中用于文本分类的流形外正则化
贴一下汇总贴:论文阅读记录论文链接:《Out-of-Manifold Regularization in Contextual Embedding Space for Text Classification》一、摘要对具有预训练权重(即BERT)的神经网络的最新研究主要集中在低维子空间上,在该子空间中,根据输入词(或其上下文)计算出的嵌入矢量位于其中。在这项工作中,我们提出了一种新的方法来查找和规范空间的其余部分(称为流形外),无法通过单词来访问。具体来说,我们基于从实际观察到的单词获得的两个嵌入来合原创 2021-05-17 11:53:36 · 498 阅读 · 3 评论 -
【论文泛读78】建立新闻领域的问答系统
贴一下汇总贴:论文阅读记录论文链接:《Building a Question and Answer System for News Domain》一、摘要该项目试图在新闻领域中构建一个问答系统,其中“段落”将是新闻文章,任何人都可以对它提问。我们使用注意力机制建立了一个基于跨度的模型,其中该模型预测有关段落中起始标记和结束标记的位置的问题的答案。为了训练我们的模型,我们使用了斯坦福问答(SQuAD 2.0)数据集[1]。为了在SQuAD 2.0上表现出色,系统不仅必须在可能的情况下回答问题,而且还必须原创 2021-05-15 12:37:52 · 240 阅读 · 0 评论