
NLP
BUPT-WT
不积硅步无以至千里,不积小流无以成江海
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NLP-Spring 2019
Spring 18Spring 15。原创 2023-06-23 14:35:52 · 115 阅读 · 0 评论 -
node2vec: Scalable Feature Learning for networks
Node2vec历史意义:是目前引用量比较高的文章 与DeepWalk文章一样,属于早期网络表征学习的代表性工作,后期作为经典baseline 启发了大量基于random walk来做网络表征学习的工作图学习领域(人工特征提取->特征筛选-> 输入分类器) ---------- DeepWalk、node2vec ---------- 深度学习领域(特征工程和分类集于一体) (基于特征工程) ...原创 2020-12-15 09:43:10 · 810 阅读 · 1 评论 -
LINE: Large-scale Information Network Embedding
LINE算法意义:1、适用于任意类型的网络,有向无向有权无权2、清晰优化目标函数、维护一阶和二阶相似度3、百万级和十亿级条边几个小时训练完4、LINE是WWW2015引用量最高的文章5、与Deepwalk(2014)、node2vec(2016)一样是早期网络学习的代表性工作,经典baselines6、启发大量基于网络结构来做表征学习的工作图学习领域(人工提取特征-基于特征工程) <-------------- Deepwalk、Line、Node2vec -...原创 2020-12-13 17:29:19 · 550 阅读 · 1 评论 -
Albert: A lite bert for self-supervised learning of language representations (Albert)
Albert 历史意义:1、Albert 各层之间采用参数共享和embedding因式分解减少参数量2、在nlp预训练模型中正式采用轻量级bert模型nlp领域(各个下游任务都有自身的模型) <-------- 2020(ALbert) -----------> nlp领域(采用轻量级bert模型Albert)论文主要结构:一、Abstract 介绍背景及提出Albert模型在多个数据集上的效果都表现优异 1、增加model...原创 2020-12-03 09:10:30 · 605 阅读 · 0 评论 -
Learning Deep Structured Semantic Models for Web Search using Clickthrough Data (DSSM)
主要研究问题: 给定一个查询(query)和一组文档(document),返回一个排序(ranking),系统根据查询所对应文档的契合度高低排序。论文主要结构:一、Abstract1、基于关键词匹配的潜在语义模型经常失败2、模型利用历史点击给定查询和一组文档,最大化匹配被点击过的文档的概率3、采用词哈希技术以便能应对大规模的网络搜索4、利用真实的网页排名数据做实验,结果显示DSSM明显优于其它模型二、Introduction1、潜在语义分析模型(如...原创 2020-11-30 10:27:53 · 524 阅读 · 0 评论 -
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
Bert历史意义:1、获取了left-to-right和right-to-left的上下文信息2、nlp领域正式开始pretraining+finetuning的模型训练方式nlp领域(各个下游任务都有自身的模型) -------2018(Bert) --------nlp领域(各个下游任务统一使用Bert模型)论文主要结构:一、Abstract介绍背景及提出bert模型,在多个数据集上的效果都表现优异1、提出一种新的语言表征模型bert,不同于其它的语言表征模型,be...原创 2020-11-27 09:34:20 · 995 阅读 · 0 评论 -
Attention Is All You Need (transformer)
Transformer 研究意义:1、提出了self-attention,拉开了非序列化模型的序幕2、为预训练模型的到来打下了坚实的基础序列化模型主导(LSTM) <----- 2017 -----> 提出新的attention方式,实现了非序列化的模型并行化,提高效率(self-attention)这篇文章提出来主要是解决机器翻译问题,机器翻译指标(BLEU)提升两个点机器翻译指标(BLEU):Candidate: the the the the the the .原创 2020-11-20 09:50:11 · 451 阅读 · 1 评论 -
SGM:Sequence Generation Model for Multi-Label Classification(SGM)
SGM历史意义: 1、提出一种新奇的模型SGM 2、给多标签文本分类提供一种新的解决思路 3、在两个多标签分类的数据集上取得了很好的结果论文主要结构:一、Abstract 多标签文本分类因为标签之间的相关性所以是一个非常有挑战性的工作,并且文本不同部分对于标签的预测的重要性不同,基于这两点,这篇论文提出一种基于注意力机制的序列生成模型来做多标签文本分类二、Introduction (任务重要性 -> 前...原创 2020-11-14 19:23:55 · 1171 阅读 · 0 评论 -
Hierarchical Attention Networks for Document Classification(HAN)
HAN历史意义: 1、基于Attention的文本分类模型得到了很多关注 2、通过层次处理长文档的方式逐渐流行 3、推动了注意力机制在非Seqseq模型上的应用前人主要忽视的问题: 1、文档中不同句子对于分类的重要性不同 2、句子中不同单词对于分类的重要性也有所不同本文主要结构一、Abstract (通常框架为:任务的重要性 -> 前人缺点 -> 本文模...原创 2020-11-10 09:53:52 · 2524 阅读 · 2 评论 -
Bag of Tricks for Efficient Text Classification(Fasttext)
Fasttext历史意义:1、提出一种新的文本分类方法-Fasttext,能够快速进行文本分类,效果较好2、提出一种新的使用子词的词向量训练方法,能够在一定程度上解决oov问题3、将Fasttext开源使得工业界和学术界能够快速的使用Fasttext深度学习文本分类模型:优点:效果好,能达到非常好的效果,不用做特征工程,模型简洁缺点:速度比较慢,无法在大规模的文本分类任务上应用机器学习文本分类模型:优点:速度一般都很快,模型都是线性分类器,比较简单;效果还可以,在..原创 2020-10-28 10:09:12 · 580 阅读 · 0 评论 -
Character-level Convolutional Networks for Text Classification
论文总体结构本文历史意义:1、构建多个文本分类数据集,推动文本分类发展2、提出CharTextCNN方法,由于只使用字符信息,所以可以用于多种语言中一、Abstract(通过实验探究了字符级别卷积神经网络用于文本分类的有效性,模型取得较好结果) 摘要部分讲解了本文主要做什么,主要是三个方面,一是从实验角度探究字符级别卷积神经网络的有效性,二是构造几个大规模文本分类数据集,三是和对比模型相互比较。二、Introduction(字符级别特征可以有效从原始新号如...原创 2020-10-23 10:03:53 · 916 阅读 · 4 评论 -
Convolutional Neural Networks for Sentence Classification
论文总体结构一、摘要 使用卷积神经网络处理句子级别文本分类,并在多个数据集上有好的效果二、Introduction(背景介绍) 使用预训练词向量和卷积神经网络,提出一种有效分类模型 本文的主要契机: 1、深度学习的发展(2012) 2、预训练词向量方法 3、卷积神经网络的方法 本文的历史意义: 1、开启基于深度学习的文本分类的序幕 2、推动卷积神经网络在自...原创 2020-10-19 09:10:15 · 1059 阅读 · 1 评论 -
GloVe:Global Vectors for Word Representation
论文总体结构:一、摘要 主要提出新的词向量学习方法glove,利用全局统计信息和局部上下文信息学习 1、当前词向量学习模型能够通过向量的算数计算捕捉之间语法和语意规律,但是背后的规律依旧不可解释 2、经过仔细分析,发现了一种有助于这种洗向量规律的特性,并基于词提出了一种新的对数双线性回归模型,该模型利用矩阵分解和局部上下文的有点来学习词向量 3、模型通过只在共现矩阵非0位置训练达到高效训练的目的 4、模型在词对推理任务上75%的...原创 2020-10-11 11:12:01 · 638 阅读 · 2 评论 -
Word2Vec(Efficient Estimation of Word Representations in Vector Space)
本篇论文的整体结构如下:对比模型: NNLM RNNLM Word2Vec Skip-Gram CBOW 关键技术 层次softmax 负采样 实验结果 与对比模型的直接对比结果 不同参数的实验 不同模型的效率分析 一、对比模型语言模型基本思想: 句子中一个词出现和前面的词是有关系的,可以使用前面的词预测下一个词NNLM:输入层: 将词映射成向量,相当于一个1*v的one-hot向量乘以一个v*d的向量得到一个1*d...原创 2020-09-21 21:05:40 · 479 阅读 · 0 评论 -
NLP-基础知识-007(机器学习-朴素贝叶斯)
举个例子: 邮件是否是垃圾邮件垃圾邮件里经常出现“广告”,“购买”,“产品”这些单词。 也就是 p(“广告”| 垃圾) > p(“广告”| 正常),P(“购买”| 垃圾) > p(“购买”| 正常) …. 这些概率怎么计算?假设: 每个邮件包含10个单词正常邮件24个 => 单词: 240个 购买出现过3次垃圾邮件12个 => 单词: 120个 购...原创 2019-12-06 21:13:32 · 273 阅读 · 0 评论 -
NLP-基础知识-006(机器学习)
一、定义:自动从已有的数据里找出一些规律,然后把学到的这些规律应用到对未来数据的预测中,或者在不确定环境下自动地做一些决策二、机器学习分类 监督模型 非监督模型 生成模型 朴素贝叶斯(Naive Bayes) HMM、LDA、GMM 判别模型 逻辑回归(Logisti...原创 2019-12-06 19:12:13 · 294 阅读 · 0 评论 -
NLP-基础知识-005(专家系统)
学习的两个分支:1、专家系统(也称-符号主义、俗称规则) if: elif:... else .... 查看数据量: 1) 没有数据或者数据量比较少的情况下更适合规则 2) 如果有大量的数据 => 基于概率的解决方案2、基于概率的解决方案(也称-连接主义) 专家系统: 专家系统 = 推理引擎 + ...原创 2019-12-03 21:51:38 · 1408 阅读 · 0 评论 -
NLP-基础知识-004(生成模型)
使用语言模型生成句子(语言模型-生成模型)生成新的数据-图片、音乐、文本...Unigram Model[NLP,I,Like,studying,course,yesterday] = Vocab[0.1,0.3,0.2,0.3,0.35,0.05]不考虑上下文,可能生成下面句子: I,study,NLP,course,I,yesterday I Li...原创 2019-12-03 20:25:25 · 640 阅读 · 0 评论 -
NLP-基础知识-003(词性标注)
目标:词性标注s = w1w2w3......wn 单词z = (z1z2......zn) 词性目的:argmax p(z|s) -> Noisy Channel Model= argmax p(s|z) p(z)p(s|z) - Translation Modelp(z) - Language Model= argmax p(w1w2...wn|z1...原创 2019-12-01 15:20:35 · 1190 阅读 · 0 评论 -
NLP-基础知识-002 (语言模型)
一、Noisy Channel Modelp(text|source) = k * p(source|text)P(text) ----> Noisy Channel Model主要通过贝叶斯定理: p(text|source) = p(source|text)*p(text)/p(source)p(source) 为常数应用场景:语音识别、机器翻译、拼写纠错、OCR、...原创 2019-12-01 09:55:38 · 484 阅读 · 1 评论 -
NLP-基础知识-001
一、文本分析流程Pipeline原始文本(网页文本、新闻、...) -> 分词(中文、英文) -> 清洗(无用的标签 !¥ 停用词.....) -> 标准化(英文时态等) -> 特征提取(tf-idf、word2vec) -> 建模(分类算法、相似度算法) -> 评估过程二、分词工具英文没有分词、中文主要以下工具进行分词jieba分词...原创 2019-11-30 10:54:56 · 636 阅读 · 2 评论