
深度学习
文章平均质量分 76
神经网络、tensorflow、pytorch等
Clairezcy
喜欢用技术手段研究感兴趣的问题,热衷数据分析和自然语言处理,寻找数据和语言文字背后的逻辑和联系,尤其看好知识图谱的发展~~
展开
-
NLPer必会:bert+bilstm+CRF进行中文命名实体识别(NER)
1、命名实体识别由于有标注标签的存在,转化为多分类问题。标注标签本次训练集中为‘BIO’方式标注命名实体标注三种:人物,地点,组织机构标签共7个类别:B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG,O2、对于文本向量表示,如使用预训练模型BERT的向量:安装腾讯肖涵博士开发的Bert Server(bert-serving-server)和Client(bert-...原创 2020-02-27 16:04:52 · 8651 阅读 · 3 评论 -
用numpy自定义两层神经网络回归模型
菜鸟一枚,深度学习过程中,记录心得体会,如果有大神发现错的地方,还请麻烦告知,万分感谢!神经网络无非扮演着非线性拟合数据的角色,每一层可以看作是拟合一部分数据信息,直至将所有数据信息都学习出来,每个神经元都是线性函数与非线性激活函数(relu,sigmoid,tanh等)的组合,都有对应的参数要学习,层数及神经元数目越多,则参数数量越庞大,因为需要通过反向传递学习的损失,进而...原创 2020-01-03 16:01:56 · 694 阅读 · 0 评论 -
pytorch建立神经网络模型
学会利用torch.nn.Sequential、torch.nn.Module、torch.nn.MSEloss、torch.optim各包构建神经网络1、torch可利用已有Sequential结构直接生成网络,也可以继承Module来自定义网络2、损失函数一般回归模型可用MSEloss(最小二乘法),二分类模型可用BCEwithLogitsloss(二分类交叉熵),多分类模型可用Cros...原创 2020-01-09 12:50:33 · 725 阅读 · 0 评论 -
PyTorch学习之 torch.optim 的6种优化器及优化算法介绍
内容转自Line_Walker的文章,链接https://blog.youkuaiyun.com/qq_36589234/article/details/89330342记录到自己博客中,以便温故知新这6种方法分为2大类:一大类方法是SGD及其改进(加Momentum);另外一大类是Per-parameter adaptive learning rate methods(逐参数适应学习率方法),包括A...转载 2020-01-09 13:05:27 · 3075 阅读 · 0 评论 -
神经网络之权重初始化
本文转载自https://blog.youkuaiyun.com/zhangbaoanhadoop/article/details/83042960记录下来,时时温故知新模型权重的初始化对于网络的训练很重要, 不好的初始化参数会导致梯度传播问题, 降低训练速度; 而好的初始化参数, 能够加速收敛, 并且更可能找到较优解. 如果权重一开始很小,信号到达最后也会很小;如果权重一开始很大,信号到达最后也会很...转载 2020-01-09 13:24:47 · 564 阅读 · 0 评论 -
常见回归和分类损失函数比较
本文转自https://www.cnblogs.com/massquantity/p/8964029.html记录下来,以备时时温故知新损失函数的一般表示为L(y,f(x))L(y,f(x)) ,用以衡量真实值yy 和预测值f(x)f(x) 之间不一致的程度,一般越小越好。为了便于不同损失函数的比较,常将其表示为单变量的函数,在回归问题中这个变量为y−f(x)y−f(x) ,在...转载 2020-01-09 13:35:06 · 633 阅读 · 0 评论 -
手推BP过程
以前不喜欢用电脑记录东西,总喜欢手写笔记,现在发现博客的好处,就把笔记都搬上来了原创 2020-01-09 14:08:11 · 414 阅读 · 0 评论 -
手推“逻辑回归的损失函数——交叉熵损失函数”
把手写笔记搬上来,以后就用博客进行学习记录了,加油!原创 2020-01-09 14:09:58 · 446 阅读 · 0 评论 -
language mode以及LSTM实现
把手写笔记搬上来,以后就用博客进行学习记录了,加油!n-gram语言模型,在我看来,有点类似于有监督机器学习里面的生成式模型,就是假设样本概率分布与总体概率分布相同,用样本的条件概率去估计总体的条件概率,样本的条件概率就用样本的P(y)/P(x,y)就行了,n-gram语言模型对某个词序列的概率计算方式与之类似,词序列的概率是由序列中每一节点的条件概率相乘得到,那么每一条件概率的计算...原创 2020-01-09 14:13:19 · 504 阅读 · 0 评论 -
word2vec原理及论文代码复现
把手写笔记搬上来,以后就用博客进行学习记录了,加油!word2vec 总结1、两种方式:CBOW(context(w) --->w), skip-gram(w--->context(w)) 但其实这两个的区别只是CBOW中的center word作为context的mean,梯度下降法更新center word后,再以同尺度、同时更新所有context words;而sk...原创 2020-01-09 14:22:22 · 857 阅读 · 0 评论 -
FastText与Glove原理
把手写笔记搬上来,以后就用博客进行学习记录了,加油!原创 2020-01-09 14:24:40 · 213 阅读 · 0 评论 -
Seq2Seq与Attention机制与pytorch实现双向GRU+attention encoder-decoder模型
把手写笔记搬上来,以后就用博客进行学习记录了,加油!所谓Attention机制,如用RNN作为encoder来学习输入序列,那么encoder上所有节点(词)隐藏层输出就相当于输入序列的背景变量(或者叫做query向量),寻找query与输出序列(或者叫做key向量)之间的权重关系,得出encoder上每个节点词与所有输出节点词之间的权重系数,进而计算某个输出节点输出值时就用该输出节点对应...原创 2020-01-10 16:31:54 · 3375 阅读 · 3 评论 -
Transformer原理与self-attention过程详解
把手写笔记搬上来,以后就用博客进行学习记录了,加油!原创 2020-01-10 16:32:05 · 283 阅读 · 0 评论