
CS224N
韩明宇
这个作者很懒,什么都没留下…
展开
-
GloVe推导过程
GloVe GloVe使用了词与词之间的共现(co-occurrence)信息。我们定义X为共现词频矩阵,其中元素为词j出现在词i的环境(context)的次数。这里的“环境”有多种可能的定义。举个例子,在一段文本序列中,如果词j出现在词i左边或者右边不超过10个词的距离,我们可以认为词j出现在词i的环境一次。令为任意词出现在词i的环境的次数,那么,为词j出现在词i的环境的概率。这一概...转载 2019-05-02 18:01:43 · 690 阅读 · 0 评论 -
CS224N笔记——依存句法分析
语言学的两种观点 如何描述语法,有两种主流观点,其中一种是短语结构文法(上下文无关文法),英文术语是:Constituency = phrase structure grammar = context-free grammars (CFGs)。这种短语语法用固定数量的rule分解句子为短语和单词、分解短语为更短的短语或单词。一个取自WSJ语料库的短语结构树示例:另一种是依存结构...转载 2019-05-29 19:34:42 · 1417 阅读 · 0 评论 -
CS224N笔记——深入GRU和LSTM
目录深入GRUUpdate GateReset Gatetanh-RNN与GRU的对比GRU与LSTM的对比深入LSTM训练一个RNNEnsemble 深入GRU RNN的梯度消失:损失在反向传播中必须经过所有中间节点。GRU额外添加了一些“捷径”红线,允许梯度直接流过去,而不是连乘的方式递减过去。Update Gate用来自适应学...原创 2019-05-31 16:18:30 · 371 阅读 · 0 评论 -
CS224N刷题——Assignment3.1_A window into NER
Assignment #3A primer on named entity recognition这一节作业我们会建立几种不同的模型来实现命名实体识别(NER)。NER是信息抽取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人名、组织、地点、时间表达式、数量、货币值、百分比等。对于上下文中给定的一个单词,预测它是否代表下列四个类别中的一个:人名(PER):例如“Ma...原创 2019-08-19 20:54:20 · 477 阅读 · 0 评论 -
CS224N笔记——神经机器翻译与Attention机制
目录神经机器翻译NMT神经机器翻译的架构神经机器翻译的青铜时代现代神经机器翻译的序列模型RNN EncoderDecoder:循环语言模型机器翻译的发展神经机器翻译的四大优势统计/神经机器翻译神经机器翻译主要由工业界促进Attention:朴素RNN&长序列Attention机制词语对齐同时学习翻译和对齐Scoring 神经...原创 2019-08-19 20:54:01 · 885 阅读 · 0 评论 -
CS224N笔记——RNN和语言模型
目录传统语言模型循环神经网络语言模型损失函数训练RNN时的困难梯度消失问题梯度消失实例防止梯度爆炸减缓梯度消失困惑度结果问题:softmax太大且太慢一个实现技巧序列模型的应用双向和深层RNNs双向RNNs深层双向RNNs评测 传统语言模型 语言模型就是计算一个单词序列(句子)的概率的模型。可以用于机器翻译中,判断译文序列中...原创 2019-08-19 20:53:51 · 321 阅读 · 0 评论 -
CS224N刷题——Assignment2.3_RNN:Language Modeling
Assignment #23.Recurrent Neural Networks: Language Modeling在这一节中,计算RNN语言模型的梯度。语言模型是NLP中的一个核心任务,语言模型也存在于语音识别、机器翻译等许多其他系统的核心部分。给定一个单词(表示为一个one-hot行向量)序列,语言模型根据下列模型预测下一个单词:其中是单词表中的一个单词。下面计算RN...原创 2019-05-24 21:57:06 · 232 阅读 · 0 评论 -
CS224N刷题——Assignment2.1_Tensorflow&Softmax
Assignment #2在这节作业中,神经网络的输入会是行向量,因为这对于TensorFlow来说是标准操作(有些内置TensorFlow函数假定输入是行向量),这意味着隐藏层的权重矩阵会右乘输入而不是左乘。1.Tensorflow Softmax实现一个线性分类器,损失函数定义为:其中x是行向量特征,W是模型的权重矩阵,我们将使用TensorFlow的自动微分功能来将该模型与所...原创 2019-05-16 11:54:19 · 248 阅读 · 0 评论 -
CS224N笔记——机器翻译和GRU以及LSTM
目录复习使用RNN的机器翻译GRULSTM 复习 Word2Vec:Glove:Nnet&Max-margin:,Multilayer Nnet&Backprop:,RNN:,Cross Entropy:Mini-batch SGD: 使用RNN的机器翻译 红圈所示特征表示必须能捕捉整个原文短语的语义,但是RNN无法记...原创 2019-08-19 20:53:57 · 441 阅读 · 0 评论 -
CS224N笔记——TensorFlow入门
目录深度学习框架简介TensorFlow是什么图计算编程模型图在哪里如何运行如何定义损失如何计算梯度变量共享总结深度学习框架简介为什么要用成熟的框架,而不是从头写一个: 这些框架提供了大规模机器学习算法的成熟实现 方便地计算梯度 标准化机器学习应用,方便共享交流 多种算法、理念、抽象、编程语言等的融合 提供G...原创 2019-05-15 21:02:03 · 382 阅读 · 0 评论 -
CS224N刷题——Assignment1.4_情感分析
Assignment #14.Sentiment Analysis现在,通过你训练的词向量,我们将进行一个简单的情感分析。对于斯坦福情感树库数据集中的每个句子,我们将使用该句子中所有词向量的平均值作为其特征,并尝试预测所述句子的情感等级。这些短语的情感等级在原始数据集中以实际值表示,这里我们只使用五个类:“very negative (−−)”, “negative (−)”, “ne...原创 2019-05-15 11:24:32 · 695 阅读 · 0 评论 -
CS224N笔记——反向传播
目录两层神经网络的反向传播电路图解释流动图解释实际神经网络中的误差信号 两层神经网络的反向传播 将输出s展开:对求偏导:矩阵形式:其中,对求偏导:其中,综上,任意层的通用公式为: 电路图解释 反向传播时每通过一级,就用链式法则乘以这一级的导数。其中,sigmoid相关的元件可以合并为...原创 2019-05-14 15:44:52 · 237 阅读 · 0 评论 -
CS224N刷题——Assignment1.3_word2vec
Assignment #13.word2vec(a)假设已有一个与skip-gram模型的中心词c对应的预测词向量,并使用word2vec模型中的softmax函数进行词预测:其中w表示第w个词,是词汇表中所有单词的“输出”词向量。假设在预测中使用交叉熵损失函数,单词o是预期单词(在one-hot标签向量中的第o个元素是1),推导关于的梯度。提示:使用问题2中的符号会有帮助。例...原创 2019-05-06 21:53:02 · 450 阅读 · 0 评论 -
CS224N笔记——高级词向量表示
目录复习近似:skip-gram模型和负采样其他方法综合两者优势:GloVe评测词向量 复习 word2vec主要思想遍历整个语料库中的每个单词 预测每个单词(窗口的中心词)的上下文词汇在每个窗口进行随机梯度下降法(SGD)词向量的随机梯度在每个窗口,只有最多2m+1个单词,非常稀疏。我们也可以只更新实际出现过的词向量。解决方案:每次更新...原创 2019-05-01 15:51:03 · 304 阅读 · 0 评论 -
CS224N笔记——词向量表示
目录Word meaningWord2vec introductionWord2vec目标函数的梯度 Word meaning 如何表示一个词的词义?在韦氏词典中meaning的词义为:(1)用单词、短语等表示的想法;(2)人们想要通过单词、符号等表示的想法;(3)在写作、艺术等作品中表达的思想。如何用计算机处理词义?最常用的方法:用分类资源来处理词义...原创 2019-04-26 17:24:54 · 327 阅读 · 0 评论 -
CS224N刷题——Assignment1.1&1.2_Softmax&神经网络基础
Assignment #11.Softmax(a)证明softmax对输入中的常量偏移保持不变,即对于任何输入向量x和任何常量c,式中,x+c意味着将常数c加到x的每个维上。记住:注:在实践中,我们利用这一性质,在计算数值稳定性的softmax概率时,选择。(即从x的所有元素中减去其最大元素)(b)给出n行和d列的输入矩阵,使用(a)部分的优化方法计算每行的soft...原创 2019-04-30 20:02:59 · 411 阅读 · 0 评论 -
CS224N笔记——Word Window分类与神经网络
目录分类的背景分类问题中更新词向量Window classification神经网络 分类的背景 关于分类给定训练集:其中是一个d维向量,是一个c维one-hot向量,N是训练集样本数。在传统的机器学习方法中,往往通过诸如逻辑斯谛回归和SVM找到分类决策边界:softmax细节把给定输入x时的输出为y的概率计算分成两步:(1)用(W的第y行)乘...原创 2019-05-03 14:37:30 · 584 阅读 · 0 评论 -
CS224N刷题——Assignment3.2_Recurrent neural nets for NER
Assignment #32. Recurrent neural nets for NER每一个RNN单元利用一个sigmoid将隐藏状态向量和输入结合起来,然后在每一个时间步利用隐藏状态来预测输出:其中是词向量,是RNN单元的参数,是softmax的参数。和之前一样,V是单词表的大小,D是词向量的大小,H是隐藏层的大小,C是预测的类别数(这里是5)。为了训练模型,我们对每...原创 2019-06-17 14:48:40 · 478 阅读 · 2 评论