
nlp
文章平均质量分 91
xiayto
这个作者很懒,什么都没留下…
展开
-
在中文大语料库上训练word2vector
目录:1、词向量的作用2、词向量的训练方法3、gensim实现大语料库的word2vec1、词向量的作用传统使用one-hot表示一个词,用multi-hot表示一个文档。这样做主要的问题是: 1)维度大,独热向量稀疏。 2)损失语义信息,每个词用一个维度进行编号,词之间的余弦相似度都为0word embedding的优势: 1)分布式的表示(distribution...原创 2018-07-25 22:02:47 · 4400 阅读 · 1 评论 -
深度文本匹配发展总结
1、背景介绍文本匹配是自然语言处理中的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。2、数据集介绍论文中经常用到的数据集:SNLI:570K条人工标注的英文句子对...原创 2018-07-28 02:39:15 · 12480 阅读 · 2 评论 -
词向量经典模型:从word2vec、glove、ELMo到BERT
前言词向量技术将自然语言中的词转化为稠密的向量,相似的词会有相似的向量表示,这样的转化方便挖掘文字中词语和句子之间的特征。生成词向量的方法从一开始基于统计学的方法(共现矩阵、SVD分解)到基于不同结构的神经网络的语言模型方法。这里总结一下比较经典的语言模型方法:word2vec、glove、ELMo、BERT。其中BERT是最新Google发表的模型,在11个经典的NLP任务中全面超越最佳模型...原创 2018-12-05 23:39:27 · 35300 阅读 · 2 评论 -
Notes:文本分类任务
1 传统方法一般采用步骤:a.文本预处理b.特征提取,得到文本表示c.分类器分类a.文本预处理先根本停用词表去除停用词后,分词(用字会损失n-gram特征)b.特征提取,得到文本表示词袋模型、语义相关的主题模型(LSI、NMF、LDA)提取特征。c.分类器分类使用SVM、xgboost、LightGBM等分类器分类。2 深度学习的文本分类方法2.1 fastText...原创 2019-02-22 05:54:18 · 1130 阅读 · 0 评论 -
Attention在NLP领域的一些知识点
先简单记录一下基础的知识点,阅读完综述《Attention, please! A Critical Review of Neural Attention Models in Natural Language Processing》后会更新。1、Attention 简介Attention可以理解为一种文本聚焦的方法,基本思想是对单词的embedding分配不同的权重,把注意力集中在相关的文本内容...原创 2019-02-10 22:02:30 · 756 阅读 · 0 评论 -
深度学习优化方法总结
SGDSGD一般指小批量梯度下降,每一次迭代计算小批量的梯度,然后对参数进行更新,是最常见的优化方法了即:gt=∇θt−1f(θt−1)g_t = \nabla_{\theta_{t-1}}f(\theta_{t-1})gt=∇θt−1f(θt−1)Δθt=−η∗gt\Delta\theta_t = -\eta*g_tΔθt=−η∗gt其中η\etaη是学习率,θ\thetaθ...原创 2019-02-12 02:02:38 · 451 阅读 · 0 评论