- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 word2vec的整理
1. 概述word2vec源于Mikolov于2013年发布的一篇文章,主要包括skip-gram和cbow两个模型。分别为基于中心词预测上下文,和基于上下文预测中心词。接下来将从训练过程来比较skip-gram和cbow的区别。并于最后介绍word2vec经典的两个训练技巧。2. 训练过程1.skip-gram skip-gram的中心思想是根据中心词来预测上下文信息。假设滑动窗口大小为k,则对于每个中心词center,模型会训练(k-1)轮,来预测k-1个不...
2021-09-28 22:09:18
332
原创 LSTM和GRU的整理
前沿:LSTM和GRU是为了解决RNN的梯度消失问题提出来的,因此在介绍LSTM和GRU之前有必要先把RNN及其梯度消失问题先介绍一下。1. RNNRNN全名循环神经网络(Recurrent Neutral Network),其结构如下:其中每个时间步上的U、Ws、V都是共享的,因此对每个时间步的计算公式如下:其中f表示激活函数,常用sigmoid或者tanh,g一般表示softmax函数...
2021-09-21 12:58:04
273
原创 预训练模型比较(整理网上资源,侵删)
1. 使用NSP和MLM两个任务 2. 使用WordPiece方式(基于BPE算法的改进)构建词表 3. 使用transformer的encoder结构,但在transformer的基础上,使用的是position embedding 4. transformer的encoder和decoder的block都是6个,8个头,512的embedding size,而bert base的参数为12个block, hidden_size为768,共有12个头。bert l
2021-09-14 21:12:09
461
原创 知识蒸馏的梳理(侵删)
1.定义 最早见于Hinton的文章(Distilling the Knowledge in a Neural Networ),主要思想是:先训练一个复杂的模型,然后使用这个复杂模型的输出和数据的真实标签去训练一个需要的小模型。其中复杂模型为Teacher模型,小模型为Student模型。2.分类 主要分为基于Logits的知识蒸馏和基于特征的知识蒸馏2.1基于logits的知识蒸馏 将teacher model输出的logits...
2021-09-11 11:58:49
512
原创 优化器篇(整理网上资源,侵删)
1. 梯度下降(gradient descent):三种梯度下降方式: 全量梯度下降;SGD;mini-batch 梯度下降mini-batch的缺点: 1. 对步长比较敏感 2.不同参数使用相同的步长 3.可能无法跳出鞍点2. momentum:针对SGD在局部最优点处的震荡问题,增加上一时刻的梯度信息,当两个梯度同向,则增强梯度下降,否则,降低梯度下降。3. NAG在momentum的基础上...
2021-09-07 16:05:45
244
原创 评估指标篇(整理网上资源,侵删)
原文链接:https://www.cnblogs.com/skyfsm/p/8467613.html前提:混淆矩阵 其中T代表预测正确与否,P代表预测的类别是positive(正例)还是negtive(负例)。因此有:TP+FP+FN+TN = 总样本数。注: TP: 预测为正例且预测正确的样本数1. accuracyacc = 预测正确的样本数 / 总样本数 = (TP + TN)/ (T...
2021-09-06 11:36:46
332
原创 损失函数篇(基于公开资源整理, 侵删)
一、分类问题1.0-1损失函数特点:作为一种标准,但是相对太苛刻了,因此感知机使用的是一种软约束后的0-1损失函数2. hinge loss: 主要用于SVM中特点: 1. 主要用于svm中,如果样本分类正确,则损失为0,否则为1-y*f(x),其中f(x)的取值在(-1, 1)之间,而y的取值为-1或1。并不鼓励模型对某些样本过度自信,因此式模型更专注于整体的误差。 2.健壮性较强,对...
2021-09-06 00:37:49
592
原创 激活函数篇(整理自网上的资源,侵删)
1.sigmoid函数图像:上图分别为其函数图像和导函数图像.优点: 1. 函数平滑,易于求导 缺点: 1. 梯度值均小于1,容易梯度消失 2.使用指数运算,计算耗时 3.输出数据不是0均值的,收敛缓慢(模型的梯度值恒为正或者恒为负,导致会呈现Z字形的收缩方式) 收敛缓慢的图...
2021-09-05 23:23:38
331
原创 面经知识点整理
一、DNN:梯度消失于梯度爆炸 1. 结论:梯度消失(爆炸),是由于网络层数过深,导致多个小于(大于)1的梯度值连乘,网络在bp回到接近输入层时,其梯度接近0(无穷大)造成的参数不更新(更新太大)。2.公式推导(反向传播) 以下图神经网路为例: 对于每一层的o1有来年两种表示,其中NETo1经过线性变换后的值,OUTo1表示NETo1经过激活函数后的值。此处我们直接直接sigmoid激活函数,其它的激活函数类似。...
2021-08-29 17:27:20
821
原创 attention_textcnn
attention_textcnnfirstbuild_modeldata_processrun model注释转载声明first 本文原创,如有任何问题欢迎评论,两天内回复.如果对您有所帮助,希望能点个赞(卑微脸) 另外,本文章代码直接可用,按顺序复制粘贴运行即可。如有帮助,希望能点个赞0.0build_model 建立基于textcnn的注意力模型, 本文的注意力指的是:对于一个sentence, 里面的每个word对该sentence的注意力权重。import tensorflow
2020-12-04 10:56:11
1980
9
原创 常见数学术语
目录Frobenius范数KL散度Frobenius范数 frobenius范数是针对矩阵而言的(矩阵范数), 计算方式类似于L2范数,表示矩阵元素的平方和再开根号。KL散度 表示的是两个分布之间的相似度.此处表示的是用分布q来模拟分布p时所损失的信息熵。,可以理解为概率对数查的期望。...
2020-11-30 22:38:07
764
原创 Bilstm_crf实现NER
目录背景问题实现过程数据集[地址](https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus)数据预处理模型模型训练与结果调整模型时的注意事项和收获资源获取转载声明背景 在NLP中主要包括四大类任务: 序列标注(分词, 词性标注, NER(命令实体识别)) 分类任务(文本分类, 情感计算(sentiment classification) 句子关系判断(句子模式(蕴含,推断),相似度计算) 生成式任务(机器翻译(seq2s
2020-11-22 17:00:50
590
2
原创 在MR数据集上进行数据预处理,并通过TextCNN、SimpleRNN验证效果
目录背景准备工作原始MR数据预处理加标签切片并分词根据预训练词向量建立词表和嵌入矩阵将训练数据的word转化为词表中的索引并填充训练与测试数据集的划分、建立模型训练和结果分析TextCNN模型IMDB数据集在MR上进行十折交叉验证转载声明背景 在NLP进行文本情感分析时,第一步常常需要对进行分析的数据集进行处理,本文旨在描述对NLP常用数据集MR的预处理操作,包括标签、切片、分词、并利用预训练词向量进行初始化,然后利用keras.SimpleRNN进行情感分类。准备工作数据集:MR地址pyt
2020-11-13 17:23:40
2653
原创 通过python在imdb数据集上实现朴素贝叶斯
python实现朴素贝叶斯背景知识模型实现流程python代码如下转载声明背景知识贝叶斯公式为:其中因此对于在二分类问题中,对于两个不同的类别C1和C2有: 两者分别表示对于一个给定的样本数据,其属于C1或C2类别的概率,最终判断时,取较大概率值所属的类别,所以此时的P(X)可以不做考虑。最终比较大小的两个值为P(X|C1)*P(C1) 与P(X|C2)*P(C2)。模型实现流程 朴素贝叶斯的实现过程主要分为四部分: (1)数据集的导入 (2
2020-11-06 12:14:22
902
dataset and bilstm_crf
2020-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人