
自然语言处理
空腹熊猫
普通后台开发,喜欢看源码,对机器学习深度学习感兴趣
展开
-
自然语言处理:bert 用于问答系统
原文:Question Answering with a Fine-Tuned BERTWhat does it mean for BERT to achieve “human-level performance on Question Answering”? Is BERT the greatest search engine ever, able to find the answer to...原创 2020-04-15 08:00:56 · 8990 阅读 · 0 评论 -
自然语言处理:XLNet 模型
论文XLNet: Generalized Autoregressive Pretraining for Language Understanding开源代码xlnet模型介绍语言模型划分为自回归语言模型(Autoregressive LM),根据上文预测下文,或反过来(例如GPT) 自编码语言模型(Autoencoder LM),同时利用上下文,例如bertber...原创 2020-04-12 12:03:33 · 749 阅读 · 0 评论 -
自然语言处理:词向量之连续词袋模型(The Continuous Bag-of-Words Model,CBOW)
翻译自《Word2Vec Tutorial Part II: The Continuous Bag-of-Words Model》在前一篇文章推导了跳字模型并解释了什么是词向量,本篇探究词向量的另一个模型:连续词袋模型(CBOW)。如果理解了跳字模型,词袋模型也很直观,因为两者有很多相似点。例如词袋模型的结构图:看起来就像跳字模型将输入输出翻转了。对于窗口大小为C,词典词汇数 V,输入...转载 2020-03-18 23:49:41 · 5138 阅读 · 0 评论 -
自然语言处理:word2vec 之Skip-Gram模型(第二篇)
本文翻译自《Word2Vec Tutorial Part 2 - Negative Sampling》在word2vec 第二篇(第一篇),将会涉及对基础的skip-gram模型进行一些额外调整,使其的训练在实际中可行在读word2vec第一篇时,也许已经意识到:它是一个巨型网络;在文中的案例,每个词向量有300个元素,词典有偶10000个单词,神经网络有两个权重矩阵(隐层和输出层),各自...转载 2020-03-17 16:19:33 · 525 阅读 · 1 评论 -
自然语言处理:word2vec 之Skip-Gram模型
本文翻译自:《Word2Vec Tutorial - The Skip-Gram Model》Word2vec 有两个经典模型,skip-gram(跳字模型)和CBOW(连续词袋模型),这里对前者进行讲解模型skip-gram神经网络模型的原始形式很简单,也许是细微调整和功能增强使其变得难以理解。我们尝试深入观察,word2vec 使用了在其他机器学习中也可见到的技巧:我们将在一个...转载 2020-03-15 23:45:05 · 648 阅读 · 0 评论 -
自然语言处理模型:bert 结构原理解析——attention+transformer(翻译自:DECONSTRUCTING BERT, PART 2)
原文:DECONSTRUCTING BERT, PART 2: VISUALIZING THE INNER WORKINGS OF ATTENTIONThis is the second part of a two-part series on deconstructing BERT.In part 1,Deconstructing BERT: Distilling 6 Patte...转载 2020-03-09 13:55:53 · 1036 阅读 · 0 评论 -
自然语言处理模型:bert 结构原理解析——attention+transformer(翻译自:Deconstructing BERT)
原文:Deconstructing BERT: Distilling 6 Patterns from 100 Million Parameters《bert 结构解析:在1亿个参数中提取6种模式》The year 2018 marked a turning point for the field of Natural Language Processing, with a serie...转载 2020-03-09 09:05:49 · 2346 阅读 · 0 评论 -
深度学习论文阅读:Convolutional Neural Networks for Sentence Classification (TextCNN)
这是一篇将CNN运用于句子分类的论文摘要We report on a series of experiments with convolutional neural networks (CNN) trained on top of pre-trained word vectors for sentence-level classification tasks. We show that ...原创 2020-03-07 16:41:02 · 1837 阅读 · 0 评论 -
GRU(Gate Recurrent Unit,门控循环单元)结构
GRU类似LSTM,也是为了解决RNN长期记忆的梯度消失问题LSTM有三个不同的门,参数较多,训练困难。GRU只含有两个门控结构,调优后相比LSTM效果相差无几,且结构简单,更容易训练,所以很多时候会更倾向于使用GRU。GRU在LSTM的基础上主要做出了两点改变 :(1)GRU只有两个门。GRU将LSTM中的输入门和遗忘门合二为一,称为更新门(update gate),控制前边记...转载 2020-03-07 09:41:19 · 12524 阅读 · 0 评论 -
LSTM(Long Short-Term Memory,长短期记忆)结构
长短期记忆(英语:Long Short-Term Memory,LSTM)是一种时间循环神经网络(RNN)[1],论文首次发表于1997年。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。 摘自:长短期记忆,维基百科RNN我们往往会根据之前发生的事情,预测到后面的事,RNN就模拟了这种有记忆的网络,是有状态的,图中的回路表现了这个状态的保留。...转载 2020-03-07 08:52:55 · 1775 阅读 · 0 评论