
NLP学习记录
自然语言处理相关学习记录
Sanshierli_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NLP从零开始(1)基础介绍
文章目录NLP项目流程 Pipeline分词最大匹配语义理解维特比算法拼写纠错去除停用词Stemming: one way to normalize文本表示One-hot 表示文本相似度TF-IDF词向量语言模型UnigramEvaluation of Lauguage ModelSmoothingLearnningLearnningNLP项目流程 Pipeline分词基于匹配规则–最大匹配基于概率统计方法–LM、HMM、CRF最大匹配前向最大匹配从前向后匹配,尽量匹配更多字符,一般原创 2020-05-12 15:49:57 · 1105 阅读 · 0 评论 -
NLP实战 特征工程+神经网络
文章目录特征工程记录半自动特征构建 Target Mean Encoding半自动特征构建 Categorical Encoder半自动特征构建 连续变量离散化半自动特征构建 Entity Embedding半自动特征构建 连续变量的转换半自动特征构建 缺失值变量和异常值的处理自动特征构建 Symbolic learning 和 AutoCross降维方法 PCA、NMF、tSNE降维方法 Denoising Auto Encoders树模型挖掘人工特征的方法论应用人工特征的注意事项神经网络神经网络神经网络原创 2020-05-08 18:04:18 · 1845 阅读 · 0 评论 -
文本数据增强
文本数据增强文章目录文本数据增强数据处理数据采样EDA回译生成模型生成对抗网络炼丹设置权重Focal loss分类阈值优化数据处理数据采样过采样和负采样(注意数据的采集标注等本身成本高,尽量少使用欠采样。)EDA使用EDA时需要考虑任务情况,有些EDA操作会改变语义,要保证语义的完整性。同义词替换:从句子中随机选择非停止词,用随机选择的同义词替换这些单词。随机插入:随机的找出句子...原创 2020-04-10 17:30:35 · 1190 阅读 · 0 评论 -
NLP实战 项目流程
文章目录项目项目忠告数据标注算法开发效果优化算法部署硬件问题CPUGPUAI项目部署基本原则深度学习推断框架任务微服务项目项目忠告数据标注前期一定要制定充分的标注规则数据的采集一定要具有代表性非常不建议采用自动标注的方式先训练一个初步模型,然后只让相关人员进行校对,可以保证标注效率并减少标注成本。算法开发千万不要采用规则的方式进行开发初期就要引导客户使用和购买能够支持深度...原创 2020-03-24 22:52:43 · 1141 阅读 · 0 评论 -
《Chinese Open Relation Extraction and Knowledge Base Establishment》阅读记录
1. Abstract本文总结了中国语言学中的三种独特但普遍的现象,研究了无监督的基于语言学的中文开放关系提取(ORE),可以自动发现任意关系且无需任何人工标记的数据集。通过将实体关系映射到依存树并考虑独特的中文语言特性,提出一种基于依存语义范式(DSNF)的无监督中文ORE模型。该模型对实体和关系之间的相对位置没有任何限制,并且提取由动词或名词的介导关系并处理平行从句来实现结果。将此模型应用...原创 2019-12-31 10:29:15 · 2187 阅读 · 0 评论 -
《Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism》记录
Abstract句子中的关系事实通常很复杂,不同的关系三元组在句子中存有实体重叠。根据三元组重叠度将句子分为三种类型,包括Normal,EntityPairOverlap 和 SingleEntiyOverlap。 现有方法主要集中在Normal类上,无法准确地提取关系三元组。 本文提出了一种基于具有复制机制的序列到序列学习的端到端模型,该模型可以从任何这些类的句子中联合提取相关事实。 在解码...原创 2019-12-24 11:11:56 · 1443 阅读 · 0 评论 -
《Effective Modeling of Encoder-Decoder Architecturefor Joint Entity and Relation Extraction》
Abstract关系元组由两个实体以及它们之间的关系组成,并且经常在非结构化文本中找到这样的元组。文本中可能存在多个关系元组,并且它们之间可能共享一个或两个实体。从句子中提取这样的关系元组是一项艰巨的任务,并且在元组之间共享实体或重叠实体会使其更具挑战性。本文中提出了两种使用编码器-解码器体系结构共同提取实体和关系的方法。提出了一种用于关系元组的表示方案,该方案使解码器能够像机器翻译模型一样一...原创 2019-12-21 15:12:59 · 1780 阅读 · 0 评论 -
《Graph Neural Networks with Generated Parameters for RelationExtraction》阅读笔记
《Graph Neural Networks with Generated Parameters for Relation Extraction》阅读笔记Abstract近年来,在机器学习领域,关系推理的改进取得了进展。在现有模型中,图神经网络是多跳关系推理的最有效方法之一。事实上,多跳关系推理在许多自然语言处理任务中是不可缺少的,例如关系抽取。本文通过自然语言语句提出带有生成参数的...原创 2019-11-04 19:06:36 · 2872 阅读 · 4 评论 -
《Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks》阅读记录
《Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks》阅读记录Abstract注意力机制和卷积神经网络因其在特定方面及上下文词语义对齐的固有能力,被广泛应用于基于aspect(aspect方面,即用户从哪个角度评论,或者商品从哪个角度介绍,例如价格、性能、服务等)的...原创 2019-10-28 21:45:59 · 3102 阅读 · 1 评论 -
《GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction》阅读记录
《GraphRel: Modeling Text as Relational Graphs for Joint Entity andRelation Extraction》阅读记录Abstract本文提出了一种端到端的关系抽取模型GraphRel,它使用GCN来共同学习命名实体和关系。与之前的基线相比,我们通过关系加权GCN来考虑命名实体和关系之间的交互,以更好地提取关系。线性结构...原创 2019-10-24 10:08:54 · 3849 阅读 · 6 评论 -
自然语言处理学习记录
理解NLP 通俗易懂Word2vec 理解Glove模型 吾爱NLP(5)—词向量技术-从word2vec到ELMo ELMO小谈 流水账︱Elmo词向量中文训练过程杂记 fastText原理和文本分类实战,看这一篇就够了 BERT大火却不懂Transformer?读这一篇就够了 [NLP自然语言处理]谷歌BERT模型深度解析 自然语言处理中的自注意力机制(Self-att...原创 2019-09-06 15:47:14 · 264 阅读 · 0 评论 -
Bert论文翻译
Abstract我们介绍了一种新的语言表示模型,称为双向编码器表示。不同于最近的语言表示模型,BERT旨在通过对所有层的左右上下文进行联合调节,从未标记文本中预先训练深层双向表示。因此,预先训练好的BERT模型只需一个额外的输出层就可以进行微调,从而为广泛的任务(如问题回答和语言推理)创建最先进的模型,而无需对特定任务的体系结构进行实质性修改。BERT概念简单,经验丰富。它在11项自然语言...原创 2019-09-25 15:05:41 · 2437 阅读 · 0 评论