
短文本分类
文章平均质量分 92
短文本分类相关
林若漫空
这个作者很懒,什么都没留下…
展开
-
【2020-COLING】Regularized Graph Convolutional Networks for Short Text Classification 用于短文本分类的正则化图卷积网络
文章目录摘要二级目录三级目录摘要短文本分类是自然语言处理、社会网络分析和电子商务中的一个基本问题。短文本序列结构的缺乏限制了目前流行的基于深度学习的NLP方法的成功。依赖单词袋表示的更简单的方法往往与复杂的深度学习方法表现相当。为了解决短文本文本特征的局限性,我们提出了一种图正则化图卷积网络(GR-GCN),该网络通过在输出空间中加入标签依赖来扩充图卷积网络。我们的模型在专有和外部数据集上都获得了最先进的结果,比一些基准方法的性能高出6%。此外,我们还表明,与基线方法相比,GR-GCN对文本特征中的噪声原创 2021-05-10 21:33:46 · 521 阅读 · 0 评论 -
【2020】基于交互注意力卷积神经网络的中文短文本分类
文章目录摘要1 引言2 相关工作3 所提方法3.1 嵌入层3.2 特征层3.3 交互注意力层3.3 集成层5 结论和未来工作论文链接:Chinese Short Text Classification with Mutual-Attention Convolutional Neural Networks来源:ACM Trans作者:北京科技大学、中国科学院摘要基于词级和字符级特征相结合的方法可以有效地提高短文本分类性能。许多工作将两个级别的特征串联起来,而很少进行处理,这导致了特征信息的丢失。在这原创 2021-04-26 16:46:25 · 2029 阅读 · 2 评论 -
【论文翻译】2021- 基于卷积神经网络和语义扩展的短文本分类方法
文章目录摘要引言2 相关工作3 短文本处理4 所提方法论文链接:A Short Text Classification Method Based on Convolutional Neural Network and Semantic Extension来源:摘要为了解决传统短文本分类方法因数据稀疏性和语义特征不足而对短文本分类效果不佳的问题,提出了一种基于卷积神经网络和语义扩展的短文本分类方法。首先,在短文本预处理过程中,我们提出了一种改进的相似度来提高词向量表的覆盖率。其次,提出了一种短文本语义原创 2021-04-20 11:32:17 · 4134 阅读 · 8 评论 -
【2018】EMNLP-Topic Memory Networks for Short Text Classification 用于短文本分类的主题记忆网络
这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录原创 2021-04-17 14:09:37 · 800 阅读 · 0 评论 -
HAN - Hierarchical Attention Networks for Document Classification文档分类的层次注意网络HLT-NAACL2016
文章目录摘要1 引言2 层次注意力网络2.1 基于GRU的序列编码器2.2 层次注意力2.3 文档分类3 实验3.1 数据集3.2 基线3.2.1 线性方法3.2.23.2.33.3 模型配置和训练3.4 结果分析3.5 上下文相关的注意力权重3.6 注意力可视化结论文本分类经典模型作者:来自卡内基梅隆大学和微软研究院摘要我们提出了一种用于文档分类的分层注意网络。我们的模型有两个明显的特征:(i)它有一个反映文档层次结构的层次结构的层次结构;(ii)它在词和句两级有两种注意机制,使它在构建文档表示时原创 2021-04-12 11:37:30 · 745 阅读 · 0 评论 -
【论文翻译】2019 - Improving short text classification through global augmentation methods 通过全局数据增强提升短文本分类
文章目录摘要二级目录三级目录摘要我们研究了不同文本增强方法的效果。为此,我们使用了3个数据集,包括社交媒体和新闻文章形式的正式文本。我们的目标是为从业者和研究人员提供关于为分类用例的扩展做出选择的见解。我们注意到,当不能访问正式的同义词模型(如基于wordnet的扩展)时,基于word2vecs的扩展是一种可行的选择。mixup的使用进一步提高了所有基于文本的增强的性能,并减少了过拟合对经过测试的深度学习模型的影响。由于成本的原因,使用翻译服务的往返翻译更难使用,因此在正常和低资源用例中都难以访问。二原创 2021-04-11 20:55:51 · 471 阅读 · 0 评论 -
【2015】CWE:字符嵌入和词嵌入的联合学习(Joint Learning of Character and Word Embeddings)
这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录大多数的词嵌入方法都是以词为基本单位,根据词的外部语境来学习词的嵌入,忽略了词的内部结构。然而,在一些语言中,如汉语,一个词通常是由几个汉字组成的,包含了丰富的内部信息。一个词的语义也与它的组成字的意义有关。因此,我们以中文为例,提出了一种字符增强的词嵌入模型。为了解决汉字歧义和非组成词的问题,我们提出了多原型字符嵌入和一种有效的选词方法。我们评估了CWE在词语相关度计算和类比推理方面的有效性。结果表明,CWE优于其他忽略内部字符信息的基原创 2021-04-11 17:40:13 · 1890 阅读 · 1 评论 -
【2021】基于多通道CNN与多头注意力机制的短文本情感分析
文章目录摘要引言相关工作*A情感分析*二级目录三级目录Short Text Sentiment Analysis Based on Multi-Channel CNN With Multi-Head Attention Mechanism摘要由于短文本的文本特征有限,需要从多个角度挖掘短文本的特征,利用多种情感特征组合来学习隐藏的情感信息。提出了一种基于多通道卷积神经网络与多头注意机制的情感分析模型。该模型将单词特征与部分语音特征、位置特征和依赖语法特征分别组合成三个新的组合特征,输入到多通道卷积神经原创 2021-04-11 11:19:54 · 5898 阅读 · 8 评论 -
【IJCAI-2017】KPCNN: 将知识与深度卷积神经网络相结合用于短文本分类
文章目录摘要1 引言2 相关工作3 模型设计4 评价5 结论论文链接:Combining Knowledge with Deep Convolutional Neural Networks for Short Text Classification作者:来源:IJCAI-17摘要文本分类是自然语言处理应用中的一项基本任务。现有的大多数工作都依赖于显式或隐式文本表示来解决这个问题。虽然这些技巧适用于句子,但由于短小精悍,它们不太容易应用于短文。在本文中,我们提出了一个基于卷积神经网络的框架,结合短文原创 2021-04-10 15:52:22 · 2057 阅读 · 1 评论 -
【AAAI-2019】STCKA-Deep Short Text Classification with Knowledge Powered Attention(基于知识驱动注意力的深度短文本分类)
文章目录摘要引言模型二级目录三级目录论文链接:Deep Short Text Classification with Knowledge Powered Attention来源:AAAI-19作者:摘要短文本分类是自然语言处理(NLP)的重要任务之一。与段落或文档不同,短文本由于没有足够的上下文信息而更加模糊,这给分类带来了很大的挑战。本文从外部知识源中检索知识,增强短文本的语义表示。我们将概念信息作为一种知识,并将其整合到深度神经网络中。为了测量知识的重要性,引入注意机制,提出了基于知识驱动注意原创 2021-04-09 17:14:24 · 1510 阅读 · 0 评论 -
【2019】Review of short-text classification
文章目录摘要1引言2二级目录三级目录摘要目的:社交网络的迅速发展及其在日常生活中的使用,导致了短电子文档数量的爆炸式增长。因此,需要根据内容对此类文档进行分类,这在许多应用程序中都具有重要意义。需要将这些文献按照其文本内容分类,应该是有许多实际原因的。短文本分类在许多应用程序中都是必不可少的一步,例如垃圾邮件过滤、情感分析、Twitter个性化、客户评论以及许多其他与社交网络相关的应用程序。对短文本及其应用的研究有限。因此,本文旨在探讨短文本的特点及其在分类中的挑战和难点。本文试图介绍各个阶段的原理分类原创 2021-04-08 19:33:23 · 733 阅读 · 0 评论 -
短文本分类数据集总结(持续更新……)
中文数据集THUCNews数据集:根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。中文新闻标题数据集:中文新闻标题数据集包含可供训练的32类(即新闻主题)标题47,952个,可供测试的新闻标题15,986个。在删除这些包含不能处理的特殊字符的标题后,我们保留了4原创 2021-04-06 10:28:27 · 2480 阅读 · 1 评论 -
【论文翻译 | AAAI2019】TextGCN - Graph Convolutional Networks for Text Classification
Graph Convolutional Networks for Text Classification文章目录摘要1 引言2 相关工作3 方法4 实验5 结论与未来工作二级目录三级目录摘要文本分类是自然语言处理中的一个重要的经典问题。已有许多研究将卷积神经网络(在规则网格上的卷积,如序列)应用于分类。然而,只有为数不多的研究探索了更为灵活的图卷积神经网络(非网格上的卷积,如任意图)来完成这项任务。在这项工作中,我们建议使用图卷积网络进行文本分类。基于词的共现和文档词的关系,为语料库构建单一的文本图,原创 2021-04-04 15:56:03 · 1845 阅读 · 0 评论 -
【2020】A Hybrid Classification Method via Character Embedding in Chinese Short Text With Few Words
文章目录摘要1 引言2 相关工作3 提出的方法A Hybrid Classification Method via Character Embedding in Chinese Short Text With Few Words摘要近几十年来,短文本分类研究取得了重要进展。然而,现有的方法大多只关注Twitter或微博等包含几十个单词的文本,而没有考虑新闻标题或发票名称等单词较少的短文本。同时,目前的短文本分类方法无论是利用外部语料库扩展短文本的特征,还是从所有文本中学习特征表示,都没有充分考虑短文本原创 2021-04-01 20:36:29 · 745 阅读 · 0 评论 -
【2014】Short Text Classification: A survey
文章目录摘要引言二级目录三级目录论文链接:Short Text Classification: A survey摘要引言二级目录三级目录原创 2021-03-31 11:30:07 · 715 阅读 · 0 评论 -
【AAAI-19】基于整合上下文相关知识卷积神经网络的短文本分类
文章目录摘要引言我们的模型上下文相关的概念表示模块概念表示层上下文表示层上下文相关的概念表示层二级目录三级目录论文:Incorporating Context-Relevant Knowledge into Convolutional Neural Networks for Short Text Classification来源:AAAI-19作者:华南理工大学的两位同学摘要由于数据的稀疏性,一些文本分类方法不能很好地处理短文本。更重要的是,他们没有充分利用与上下文相关的知识。为了解决这些问题,我原创 2021-03-30 15:21:19 · 1018 阅读 · 0 评论 -
【2016】C-RNN: Compositional Recurrent Neural Networks for Chinese Short Text Classification
文章目录摘要引言相关工作CLSTMs/BLSTMs模型词嵌入字符嵌入LSTM-RNN分类二级目录三级目录摘要分词是中文自然语言处理的第一步,分词产生的错误可以传递到整个系统。为了减少分词对中文短文本分类系统的影响,提高中文短文本分类系统的整体性能,提出了一种基于递归神经网络(RNN)和长短时记忆网络(LSTM)的字符级和单词级特征混合模型。通过将字级特征与词级特征相结合,可以构造出因分词错误而缺失的语义信息,同时减少错误的语义相关性。最终的特征表现是在保持句子大部分语义特征的情况下抑制了分词错误。最后利原创 2021-03-29 20:46:45 · 509 阅读 · 0 评论 -
【2017】HANs:用于中文短文本分类的混合注意网络
文章目录摘要引言相关工作模型实验结论三级目录论文链接:Hybrid Attention Networks for Chinese Short Text Classification来源:作者:摘要为了提高自动语义特征选择的中文短文本分类性能,提出了结合词级和字级选择性注意的混合注意网络(HANs)。该模型首先应用RNN和CNN提取文本的语义特征。然后从词级和字符级特征中捕获类相关的注意表示。最后,所有的特征被连接到输出层进行分类。在32类和5类数据集上的实验结果表明,我们的模型不仅结合了文本的词和原创 2021-03-28 17:28:47 · 867 阅读 · 0 评论 -
EMNLP2019. HGAT-Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification
文章目录摘要1 引言2 相关工作2.1 传统文本分类2.2 用于文本分类的深度神经网络2.3 半监督文本分类3 我们提出的方法3.1 HIN3.2 HGAT3.2.1 异构图卷积摘要短文本分类在新闻和推特标签中找到了丰富而关键的应用,帮助用户找到相关信息。由于在许多实际用例中缺乏标注的训练数据,研究半监督短文本分类迫在眉睫。现有的研究大多集中在长文本上,而对短文本的研究由于数据的稀疏性和标注量的限制,效果并不理想。在本文中,我们提出了一种基于异构图神经网络的半监督短文本分类方法,充分利用了信息沿图传播的原创 2021-03-18 17:34:58 · 2118 阅读 · 0 评论 -
【2020】基于由图卷积网络和BERT生成的文档和单词表示的短文本分类
文章目录摘要1 引言三级目录摘要在许多研究中,图卷积神经网络被用于解决不同的自然语言处理问题。然而,利用图卷积网络进行文本分类的研究很少,尤其是对短文本分类的研究较少。本文首先建立短文本语料库的特殊文本图,然后开发短文本图卷积网络(STGCN)。具体来说,采用不同的短文本主题模型,并基于单词共现、文档单词关系和文本主题信息,开发短文本短文本图。将STGCN生成的单词和句子表示作为分类特征。此外,利用BERTs隐含层获得的预先训练好的词向量,大大提高了模型的分类效果。实验结果表明,在多个短文本数据集上,我原创 2021-03-23 10:44:02 · 2421 阅读 · 4 评论