- 博客(57)
- 收藏
- 关注

原创 文本生成任务之营销文本生成(Seq2seq+attention、Pointer Generator Network、Converage、Beam Search、优化技巧、文本增强)
引言文本生成(Text Generation)具体可以细分成文本摘要、机器翻译、故事续写等几种任务。本项目主要用到的是文本摘要(Summarization)的技术。我们生成摘要的方式是选取其中关键的句子摘抄下来。相反,生成式摘要则是希望通过学习原文的语义信息后相应地生成一段较短但是能反应其核心思想的文本作为摘要。生成式摘要相较于抽取式摘要更加灵活,但也更加难以实现。本项目我们将会先用生成式摘要的方法构建一个 Seq2seq+Attention的模型作为 baseline,然后构建一个结合了生成式和抽取式
2020-08-29 15:07:29
10471
56

原创 由浅入深尝试图书分类任务实战(特征工程+GBDT、机器学习模型、深度学习模型)
引言在本项目中,我们主要来解决文本单标签的任务。数据源来自于京东电商, 任务是基于图书的相关描述和图书的封面图片,自动给一个图书做类目的 分类。这种任务也叫作多模态分类。在这个实战中,我掌握学习到以下的代码实践:文本特征提取:任何建模环节都需要特征提取的过程,你将会学到如何使用 tfidf、wor2vec、FastText 等技术来设计文本特征。图片特征提取:由于项目是多模态分类,图片数据也是输入信号的一 部分。你可以掌握如何通过预训练好的 CNN 来提取图片的特征, 并且结合文本向量一起使用。
2020-07-31 16:32:36
9873
17

原创 Syntax- and Execution-Aware SQL Generation with Reinforcement Learning (记EMNLP2019一次投稿)
引言我们那一篇ACL2019的论文简单介绍了什么叫做Text-to-SQL任务,文本到SQL任务的目的是将自然语言语句映射为结构化的SQL查询。很多工作都是关注于如何生成一个SQL语句,而没有关注怎样可以更高效的利用数据库信息以及SQL模板来指导SQL的生成。前人有一个工作是Execution-Guided Decoding,核心思想是使用部分程序的执行结果来筛选过滤出无法完成的结果以获得正确答案(见下图)。我们在这次工作中在考虑知识库结构( knowledge bases )和SQL查询语法(synta
2020-07-28 19:25:39
2442

原创 Transition-based Graph Generation For Text-to-SQL Task 文本生成SQL(记ACL2019一次投稿)
引言
2020-07-23 18:38:21
4598
4
原创 我们谈一下标签正则化(标签平滑、知识蒸馏、知识精炼)
0. 引言关于正则化,大家都非常熟悉。深度神经网络由于其强大的特征提取能力,近年来在各种任务中得到了广泛而成功的应用。然而,DNN通常包含数以百万计的可训练参数,这很容易导致过拟合问题。为了解决这个问题,已经开发了许多正则化方法,包括参数正则化(例如dropout)、数据正则化(例如数据增强)和标签正则化(例如标签平滑),以避免过度拟合问题。
2022-04-29 17:34:10
4257
1
原创 一些经典的召回算法模型
Real-time Personalization using Embeddings for SearchRanking at Airbnb(kdd 2018)Embedding 向量最终能表达实体在某个空间里面的距离关系。在NLP领域中,表示的的是语义空间。在其他场景中,以电商举例,我们会直接对商品 ID 做 Embedding,其训练的语料来自于用户的行为日志,故这个空间是用户的兴趣点组成。行为日志的类型不同,表达的兴趣也不同,比如点击行为、购买行为,表达的用户兴趣不同。故商品 Embedding 向
2021-05-19 22:14:20
3417
原创 AAAI 2021:Capturing Delayed Feedback in Conversion Rate Prediction via Elapsed-Time Sampling
0. 摘要
2021-05-05 21:47:38
1447
1
原创 NeurlPS2020:Neuron-level Structured Pruning using Polarization Regularizer(polarization正则化技术)
0. 摘要神经元级结构化剪枝是一种在不影响预测精度的情况下减少神经网络计算量的非常有效的技术。在以往的工作中,结构化剪枝通常是通过对神经元的尺度因子施加L1正则化,对尺度因子低于一定阈值的神经元进行剪枝来实现的。理由是尺度因子越小的神经元对网络输出的影响越弱。接近0的比例因子实际上抑制了一个神经元。但是L1正则化缺乏神经元之间的区分,因为它将所有的缩放因子推向0。更合理的剪枝方法是只抑制不重要的神经元(比例因子为0),同时保持重要神经元的完整(比例因子较大)。为了实现这一目标,我们提出了一种新的比例因子
2021-05-05 11:39:47
1961
4
原创 CIKM 2020:Deep Time-Aware Item Evolution Network for Click-Through Rate Prediction(时间感知的深度物品演化网络)
0. 摘要为了提高用户满意度和业务效率,点击率预测是电子商务中最重要的任务之一。通常情况下,用户的兴趣可能不同于他们过去的习惯或者印象,如促销项目,可能在很短的时间内爆发。本质上,这种变化与项目进化问题有关,这是以前的研究没有研究过的。顺序推荐中最先进的方法使用简单的用户行为,不能充分模拟这些变化。这是因为,在用户行为中,过时的兴趣可能存在,并且一个项目随着时间的推移的流行程度没有得到很好的表示。为了解决这些限制,我们引入了时间感知的项目行为来处理新兴偏好的推荐。项目的时间感知项目行为是一组用时间戳与该
2021-05-04 20:03:41
1112
原创 IJCAI 2018: Globally Optimized Mutual Influence Aware Ranking in E-Commerce Search (面向搜索的互影响感知排序)
0. 摘要在网页搜索中,从搜索结果多样化的角度研究了文档之间的相互影响。但是网页搜索中的方法因其不同而不能直接应用于电子商务搜索。而对电子商务搜索中item间的相互影响的研究很少。我们提出了一个在电子商务搜索中互影响感知排序的全局优化框架。我们的框架直接优化总商品量(GMV)进行排名,并将排名分解为两个任务。第一个任务是互影响感知购买概率估计。我们提出了一种全局特征扩展方法,将互影响融入到item的特征中。我们还使用递归神经网络(RNN)来捕捉与采购概率估计中的订单排序相关的影响。第二个任务是根据购买概率
2021-05-02 17:05:17
700
原创 分析一些流行的行人重识别(RE-identification)的方法和思路
0. 引言Re-ID 作为一个特定的人检索问题,在不重叠的摄像机上被广泛研究。给定一个感兴趣的查询人,重新标识的目标是确定这个人是否在不同的时间出现在另一个地方,由不同的相机拍摄。查询人可以由图像、视频序列甚至文本描述来表示。由于公共安全的迫切需求以及大学校园、主题公园、街道等处监控摄像头数量的不断增加,在智能视频监控系统设计中,人的身份识别势在必行。人员重新识别是指从计算机视觉的角度来看,通过多个监控摄像机的行人检索问题。一般来说,为特定场景构建人员重新标识系统需要五个主要步骤(如图1所示):第一步
2020-12-13 22:47:29
10192
原创 GNN中如何利用置信度和不确定性做文章
0. 引言目前图神经网络存在很多的问题,这里作者提出了两个,一个是过平滑,另外一个是对预测结果的不确定性进行评估,换句话说希望预测的结果不仅仅是一个结果,如果有一个置信度就更好了,比如疾病预测,预测了影像目前是什么病,有一个置信度是不是会更有价值一些呢?之前很少有人探讨过GCN背景下的置信度估计,这篇博客将看看仅这些工作是如何做的?1. Confidence-based Graph Convolutional Networks for Semi-Supervised Learning(AISTATS
2020-12-01 20:28:17
2016
1
原创 浅谈贝叶斯网络以及贝叶斯网络处理模型不确定性
1. 贝叶斯定理贝叶斯定理是关于随机事件 A 和 B 的条件概率:其中P(A∣B)P(A|B)P(A∣B)是在 B 发生的情况下 A 发生的可能性。P(A)是 A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。P(A|B)是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。P(B|A)是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B 的后验概率。P(B)是 B 的先验概率,也作标淮化常量(normalizing con
2020-12-01 16:56:03
6087
原创 图神经网络(GCN)中的过度平滑(over-smooth)问题以及 multi-hops解决思路
0. 图神经网络(GCN)中的过度平滑(over-smooth)问题什么叫做图神经网络的过渡平滑问题?即在图神经网络的训练过程中,随着网络层数的增加和迭代次数的增加,每个节点的隐层表征会趋向于收敛到同一个值(即空间上的同一个位置)。不是每个节点的表征都趋向于收敛到同一个值,更准确的说,是同一连通分量内的节点的表征会趋向于收敛到同一个值。这对表征图中不通簇的特征、表征图的特征都有好处。但是,有很多任务的图是连通图,只有一个连通分量,或较少的连通分量,这就导致了节点的表征会趋向于收敛到一个值或几个值的问题。
2020-11-30 15:06:29
22805
5
原创 Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy (ECAI2020)
0. 引言1. 摘要实体和关系联合提取的目的是利用单一模型检测实体对及其关系。以往的工作通常采用先提取后分类或统一标注的方式来解决这个问题。但是,这些方法在提取实体和关系的过程中要么存在冗余实体对,要么忽略了重要的内部结构。针对这些局限性,本文首先将联合抽取任务分解为两个相互关联的子任务,即HE抽取和TER抽取。前一个子任务是区分所有可能涉及到目标关系的头实体,后一个子任务是识别每个提取的头实体对应的尾实体和关系。然后,基于我们提出的基于span的标记方案,将这两个子任务进一步分解为多个序列标记问题,并
2020-10-15 11:05:41
2839
原创 关系抽取RE的一些最新论文解读(三)
文章目录0. 引言1. A General Framework for Information Extraction using Dynamic Span Graphs (NAACL2019)2. Entity, Relation, and EE with Contextualized Span Representations(emnlp2019)3. CopyMTL: Copy Mechanism for Joint Extraction of Entities and Relations with Mu
2020-10-08 09:12:40
3235
原创 多重关系抽取(Multiple-Relations)的一些最新顶会论文(海量论文,干货满满)
0. 引言1. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction(ACL 2020)1.1 摘要从非结构化文本中提取关系三元组是构建大规模知识图的关键。然而,现有的研究在**解决同一句子中的多个关系三元组共享相同实体的重叠三元组问题**上很少有出色的成果。在这项工作中,我们引入了一个新的视角来重新审视关系三元提取任务,并提出了一个新的级联二元标记框架(CASREL),该框架源于一个原则性的问题公式。我们的
2020-10-04 21:00:20
5995
1
原创 文档级(Document-level)关系抽取(RE)目前的一些最新进展(海量论文,干货满满)
0. 引言摘要关系抽取是从纯文本中提取未知关系事实,并将其添加到知识图中,是自动构建大规模知识图的关键任务。1. multi-task: NER+RE1.1 Simultaneously Linking Entities and Extracting Relations from Biomedical Text Without Mention-level Supervision(AAAI 2020)3. Document Level3.1...
2020-09-28 20:59:03
7656
5
原创 长文本或者文档级别的关系提取任务 SCIREX: A Challenge Dataset for Document-Level Information Extraction (ACL2020)
0. 引言1. 摘要从完整的文档中提取信息在许多领域都是一个重要的问题,但是大多数以前的工作都集中在识别句子或段落中的关系上。在文档级创建大规模信息提取数据集是一项挑战,因为它需要理解整个文档,以注释实体及其文档级关系,这些关系通常跨越句子甚至章节。在本文中,我们介绍了SCIREX,一个文档级的IE数据集,它包含多个IE任务,包括显著实体识别和来自科学文章的文档级N元关系识别。我们利用现有的科学知识资源,通过集成自动和人工标注来标注数据集。我们开发了一个神经模型作为强基线,将以前最先进的IE模型扩展到文
2020-09-28 09:09:06
1913
2
原创 Exploring Font-independent Features for Scene Text Recognition (ACM2020)研究场景文本中与字体无关的特征
0. 引言1. 摘要近年来,场景文本识别(STR)已得到了广泛的研究。许多最近提出的方法都是经过专门设计的,以适应场景文本的任意形状,布局和方向,但是忽略了各种字体(或书写)样式也给STR带来了严峻挑战。这些方法(使字符的字体特征和内容特征纠缠在一起)在具有新颖字体样式的文本的场景图像上的文本识别中表现不佳。为了解决这个问题,我们通过注意生成大量字体样式的字形来探索场景文本的字体无关特征。具体来说,我们引入可训练的字体嵌入来塑造生成的字形的字体样式,场景文本的图像特征仅代表其基本模式。生成过程以空间注
2020-09-25 09:19:43
2526
原创 深入了解什么是信息抽取Information Extraction以及如何做IE(NER+关系抽取)更新ing
0. 引言信息抽取虽然现在做的不是很成熟,但是在我们工作中会经常用到。特别的是将一些非结构化数据转化为结构数据。其实很多信息抽取的工作都是人工做的,人工+自动化是主要潮流。信息抽取涉及到几个方面内容:命名实体识别、文本特征工程、关系抽取(基于规则/监督学习)。还有一些比较细的操作,例如实体消岐、实体统一、指代消解、句法分析等等。1. 信息抽取概要信息化抽取最重要的是如何将非结构化数据提取关键信息变为关键数据,例如图片、视频、文本、语音等等我们可以通过一些模型整理成有结构的数据库形式,即结构化数据。
2020-09-23 11:06:57
4288
原创 文本领域的数据预处理技术、深度学习训练技巧以及Debug经验
0. 引言1. 文本领域的数据预处理技术1.1 文本纠错1.2 低频词处理1.3 停用词1.4 关键词提取1.5 短语提取1.6 文本数据增强2. 深度学习训练技巧2.1 学习率调整2.2 梯度修正2.3 参数初始化2.4 归一化3 . 深度学习Debug...
2020-09-03 16:16:29
5711
2
原创 Seq2seq模型详解(attention mechanism+evaluation methods +Curriculum +Machine Translation)
引言Seq2seq Frameworkattention mechanismBLEUROUGEevaluation methodstraining mechanismMachine Translation
2020-09-02 11:01:26
1792
原创 全方位总结和深入循环神经网络RNN
引言对于NLP任务有个很典型的任务,叫做情感分类,还有对话机器人,诗词生成,还有slot填充任务等等都是可以用RNN来做的(这里我们说的RNN是广义的RNN)。为什么这些任务需要RNN呢?因为某些任务需要能够更好地处理序列信息,即前面的输入和后面的输入是有关系的,因此需要模型具备记忆能力。简单版本RNNRNN为什么会有记忆能力呢,首先我们看一下RNN的结构:xxx是一个向量,它表示某个时刻输入层的值(多个时刻的xxx组成一个序列);sss是一个向量,它表示隐藏层的值;UUU是输入层
2020-09-01 23:35:13
2505
原创 记录一些Pytorch方便的函数<即插即用>
引言Pytorch自己有一些函数可以实现很复杂的一些功能,自己以前想创建一个tensor,经常傻乎乎的创建一个空Tensor,然后再慢慢调整,不但不美观,而且有的时候时间复杂度很高。这个博客记录了一些Pyrotch的很方便的函数,想实现某个功能时,可以去查阅一下有没有一步到位的函数。TORCH.FULLtorch.full(size, fill_value, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=F
2020-08-30 23:16:30
412
原创 ECCV 2020 ——RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition
引言摘要基于注意力的编解码框架最近在场景文本识别方面取得了令人瞩目的成果,并且随着识别质量的提高,出现了许多变体。然而,它在无上下文文本(如随机字符序列)上的性能较差,这在大多数实际应用场景中是不可接受的。本文首先深入研究了译码器的解码过程。实验发现,典型的字符级序列译码器不仅利用了上下文信息,而且还利用了位置信息。现有的大量依赖上下文信息的方法导致了注意力漂移的问题。为了抑制注意力漂移带来的副作用,我们提出了一种新的位置增强分支,并将其输出与解码器注意模块的输出动态融合,用于场景文本识别。具体地说,它
2020-08-18 21:42:42
928
原创 基于少量标记样本的真实场景中的文本识别(Text Recognition in Real Scenarios)
引言摘要场景文本识别(STR)由于其广泛的应用,一直是计算机视觉领域的研究热点。现有的研究主要集中在学习一个通用的模型,用大量的合成文本图像来识别无约束的场景文本,并取得了实质性的进展。然而,这些方法在许多实际场景中并不十分适用:1)需要较高的识别精度,而2)缺少标记样本。为了解决这一挑战性问题,本文提出了一种在合成源域(具有多个合成标记样本)和一个特定目标域(只有一些或几个真实标记样本)之间建立序列自适应的方法。这是通过一种注意机制同时学习每个字符的特征表示,并通过对抗性学习建立相应的字符级潜在子空间
2020-08-17 22:47:45
1142
2
原创 Transformer的个人笔记
引言Google的论文《Attention is all you need》一提出,为nlp的很多任务翻开了新的一页。无论是知乎还是博客上都有很多生动具体的见解,我这里会结合自己阅读论文以及代码实现,对Transformer的一些个人理解和个人思考。先来看一下这篇论文的摘要传统的Seq2seqRNN网络存在很明显的缺点:首先很难像CNN一样并行化处理,这样无法捕捉并行化特征其次很难想CNN一样做的很深,像CNN一样做很多层在RNN中实现效果不好。长距离依赖TransformerTran
2020-08-09 19:58:42
622
原创 日常遇到的小问题(更新到 2020/09/01)
为什么FastText没有考虑语序,然而效果仍然很好?FastText其实也是用了一种词袋模型,语序的特征确实没有考虑,不过鉴于CNN在文本分类的表现也比较优秀,对于分类任务,我觉得上下文的特征还是比语序的特征更加重要。如何理解LDA VS PLSAPLSA中,主题分布和词分布都是唯一确定的。但是,LDA的作者们采用的是贝叶斯派的思想,认为它们应该服从一个分布,所以主题分布和词分布是不确定的。这里相当于抛硬币,对于PLSA,所以这个参数是固定的唯一的;而贝叶斯学派(LDA)看来 事实上有很多很多硬币
2020-07-27 17:55:51
439
原创 Pointer Network指针网络
Why Pointer NetworkStructure of Pointer NetworkHow to process language generation by incorporating Pointer NetworkGet To The Point: Summarization with Pointer-Generator NetworksCopyNetProduct abstract generation through pointer network
2020-07-25 11:19:07
18350
4
原创 LDA文本主题模型的学习笔记
引言LDA简介一些你需要了解的数学知识如何理解LDALDA的一些参数设计如何求解LDA(Gibbs Sampling和变分推断)PLSA 和 LDA 的区别
2020-07-24 23:32:08
5306
2
原创 深入浅出语言模型(四)——BERT的后浪们(RoBERTa、MASS、XLNet、UniLM、ALBERT、TinyBERT、Electra)
引言上一节我们讲到了BERT,如果要用一句时下正流行的话来形容 BERT 的出现,这句话大概再恰当不过: 一切过往, 皆为序章。 Bert出现之后,研究者们开始不断对其进行探索研究,提出来各式的改进版,再各类任务上不断超越Bert。针对Bert的改进,主要体现在增加训练语料、增添预训练任务、改进mask方式、调整模型结构、调整超参数、模型蒸馏等。下面对近年来Bert的改进版本的关键点做叙述。上一章说了BERT模型存在一些缺点。所以,AR方式所带来的自回归性学习了预测 token 之间的依赖,这是
2020-07-22 10:29:10
4486
原创 深入浅出语言模型(三)——语境化词向量表示(CoVe、ELMo、ULMFit、GPT、BERT)
引言上一节我们讲到了什么叫做静态词向量,静态词向量有个很大的特点就是每个词的表示是固定的,这样就不能解决我们人类语言中的一词多义问题,例如“I hurt my back, while I backed my car”,这句话中前一个"back"是一个名词,表达“后背”的意思;后一个“back”是动词,表达“倒车”的意思。所以这两个词向量应该是不一样的,应该考虑上下文来确定某个词在一个句子中表达什么意思,这样上下文词向量,也叫语境化词向量就应运而生了。Contextualized Embedding(语境
2020-07-21 11:09:00
7098
5
原创 深入浅出语言模型(二)——静态语言模型(独热编码、Tf-idf、word2vec、FastText、glove、Gussian Embedding、Pointcare Embedding )
引言上一节讲述了我们的语言模型,什么是语言模型以及如何得到语言模型还有一些语言模型有趣的应用。对于我们一句话来说,我们需要对其进行特征表示。通俗点来说就是要将其转换成一个向量的形式。那么我们如何将一个句子或者一个词语转化成向量呢,这就是我们今天所要学习的内容——词向量,当我们得到词向量后,我们就可以对一个句子进行特征工程从而得到句子的特征表示。静态词向量static embedding独热编码独热编码是最古老的一种词向量的编码形式,简单来说就是一种0-1表示。对于某个单词,去词库里寻找这个单词所对应
2020-07-20 16:48:53
7443
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人