
自然语言处理
asd8705
这个作者很懒,什么都没留下…
展开
-
DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLEDATTENTION
原创 2022-04-28 13:15:52 · 156 阅读 · 0 评论 -
ELECTRA: PRE-TRAINING TEXT ENCODERSAS DISCRIMINATORS RATHER THAN GENERATORS
内容很丰富,原文还有很多分析原创 2022-04-25 16:35:26 · 120 阅读 · 0 评论 -
DiffCSE: Difference-based Contrastive Learning for SentenceEmbeddings
代码地址:https://github.com/voidism/DiffCSE原创 2022-04-25 14:04:20 · 299 阅读 · 0 评论 -
Compressing Sentence Representation for Semantic Retrieval viaHomomorphic Projective Distillation
原创 2022-04-22 15:23:56 · 192 阅读 · 0 评论 -
Text2SQL — Part 1: Introduction
Introduction to the conversion of Natural Language to SQLText to SQL is a system that converts natural language statements to SQL queries. This can help in retrieving information stored in a database by expressing commands in natural language.Text2转载 2022-04-22 10:26:58 · 762 阅读 · 0 评论 -
MixCSE:Unsupervised Sentence Representation via Contrastive Learning with MixingNegatives
代码地址:GitHub - BDBC-KG-NLP/MixCSE_AAAI2022: Code for AAAI 2022 paper Unsupervised Sentence Representation via Contrastive Learning with Mixing Negatives原创 2022-04-20 19:50:38 · 638 阅读 · 0 评论 -
IS-BERT:An Unsupervised Sentence Embedding Method byMutual Information Maximization
代码地址:https://github.com/yanzhangnlp/IS-BERT原创 2022-04-20 18:19:11 · 1415 阅读 · 0 评论 -
Automated question generation and question answering from Turkish texts
原创 2022-04-19 13:40:37 · 203 阅读 · 0 评论 -
Leaf: Multiple-Choice Question Generation
原创 2022-04-15 11:21:27 · 340 阅读 · 0 评论 -
A Recurrent BERT-based Model for Question Generation
原创 2022-04-14 14:31:24 · 709 阅读 · 0 评论 -
A Recurrent BERT-based Model for Question Generation
原创 2022-04-14 14:25:40 · 372 阅读 · 0 评论 -
Transformer-based End-to-End Question Generation
原创 2022-04-14 14:25:11 · 160 阅读 · 0 评论 -
Question Generation by Transformers
原创 2022-04-13 16:56:14 · 131 阅读 · 0 评论 -
DGST: a Dual-Generator Network for Text Style Transfer
使用 数据集ChineseNlpCorpus/intro.ipynb at master · SophonPlus/ChineseNlpCorpus · GitHub跑了一下,max_len = 32。效果还可以部分效果:in - pos: 外形 精美 , 功能 实用 .out - neg: 酒店设施 很差 , 设施 陈旧 .in - neg: 你 这 包装 也 太 不负责任 了 , 洗发露 溢出 来 那么 多 , 真心 觉得 态度 就 不 <unk...原创 2022-04-13 08:55:38 · 255 阅读 · 0 评论 -
Two minutes NLP — Quick intro to Text Style Transfer
Parallel and Non-parallel data, Disentanglement, and Prototype EditingText Style Transfer (TST) is an important task in natural language generation, which aims to control certain attributes in the generated text, such as politeness, emotion, humor, and m转载 2022-04-11 11:20:23 · 155 阅读 · 0 评论 -
对比学习在语义表征中的应用:SBERT/SimCSE/ConSERT/ESimCSE复现
本篇博文主要比较目前常用的Sentence Embedding方法,包括双塔模型SBERT,对比学习SimCSE、ConSERT、ESimCSE,这里谈谈论文里的细节,以及本人在中文语料(Chinese-SNLI、Chinese-STS-B)复现后的结果。部分方法在半年前已复现过,但最近研究了sentence_transformers库的源码,发现竟然提供了对比学习的损失函数,在此基础上做二次开发,方便了不少,因此重新改了下代码,做了新的实验,使用用的base model均为macbert bas.转载 2022-03-30 11:19:47 · 1509 阅读 · 1 评论 -
如何引入外部知识增强短文本匹配?
Hi,朋友们晚上好~,周末躺了两天,今天把欠下的给补上~简单介绍下短文本匹配任务,就是两个句子送入模型,然后做一个二分类,判断两个句子是否相识。短文本匹配在很多场景都会使用到,例如问答、信息检索等系统中都会用到,但是由于短文本可能缺乏一些关键元素信息,所以模型可能不是很好的能理解短文本的语义信息,很容易想到的一个办法就是能不能对短文本做一个信息补充,比如增加一些上下文信息之类的,今天主要是给大家介绍如何引入外部信息来增强短文本信息。image-20220308155520667论文地址:转载 2022-03-30 11:18:13 · 288 阅读 · 0 评论 -
标签平滑Label Smoothing
转载地址标签平滑Label Smoothing_奔跑的小仙女-优快云博客_label smoothingLable Smoothing是分类问题中错误标注的一种解决方法。对于分类问题,特别是多分类问题,常常把向量转换成one-hot-vector(独热向量)one-hot带来的问题:(对于独热的简单解释:https://blog.youkuaiyun.com/qq_43211132/article/details/96141409)对于损失函数,我们需要用预测概率去拟合真实概率,而拟合one-hot的.转载 2022-03-15 14:35:19 · 176 阅读 · 0 评论 -
【分词】正向最大匹配中文分词算法
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。 在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有两种:一种正向原创 2016-04-18 20:23:02 · 1253 阅读 · 0 评论