
深度学习
文章平均质量分 89
晚睡的人没对象
层楼终究误少年 自由早晚乱余生
展开
-
多任务学习优化Gradient Normalization
多任务学习优化1、多任务学习模型对于多任务的loss,最简单的方式是直接将这两个任务的loss直接相加,得到整体的loss,那么loss函数为:L=∑Li(1.1)L=\sum L_i \tag{1.1}L=∑Li(1.1)在这里,模型的整体 loss 是所有子任务的 loss 之和。这种 loss 计算方式的不合理之处是显而易见的,不同任务 loss 的量级很有可能不一样, loss 直接相加的方式有可能会导致多任务的学习被某个任务所主导或学偏。当模型倾向于去拟合某个任务时,其他任务的效果原创 2021-08-17 16:22:08 · 1794 阅读 · 1 评论 -
TensorFlow的优化类公式
优化器TensorFlow的优化类主要有以下几个:GradientDescentOptimizer:最普通的批量梯度下降,令学习速率为η\etaη,ttt代表本次迭代,t+1t+1t+1代表下次迭代,则梯度迭代公式如下:θ????+1=θ????−η∂l(θ)∂θ\theta_{????+1}=\theta_????−\eta\frac{\partial l(\theta)}{\partial \theta}θt+1=θt−η∂θ∂l(θ)AdagradOptimizer:进行参数迭代原创 2021-06-09 15:15:21 · 265 阅读 · 0 评论 -
凝固度和自由度提取关键词
凝固度和自由度提取关键词参考文献1.凝固度概念含义:一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样的词的凝固度就非常高,而“华为”、“组合”这样的词的凝固度就不是很高。比如:我们抽取一段文字中的某一个词,怎么才能断定它是一个词呢,通常我们使用频次来断定一段文字是否是词。但是2400万的语料中“的电影”出现389次“电影院”出现175次“电影院”的凝固度要大...原创 2020-04-23 01:21:46 · 1620 阅读 · 0 评论 -
keras构建词向量代码需要注意的坑
keras构建词向量代码需要注意的坑keras中model构建步骤中的embeddingkeras.layers.embeddings.Embedding( input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activit...原创 2020-04-23 01:19:50 · 362 阅读 · 0 评论 -
如何理解word2vec,以及相应库的使用
word2vec博客简书word2vec博客具体参数求解推导1.什么是word2vec如果用一句比较简单的话来总结,word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。在 NLP 中,把 x 看做一个句子里的一个词语,y 是这个词语的上下文词语,那么这里的 f,便是 NLP 中经常出现的『语言模型』...原创 2020-04-23 01:16:47 · 629 阅读 · 0 评论 -
激活函数softmax 与 sigmoid 的区别
在神经网络学习的过程中不可避免的要学习到激活函数的使用。激活函数的介绍这里就不展开额讲解。在这里主要是将激活函数中softmax和sigmoid的区分做一下记录。维度softmax()sidmoid()公式σ(z)j=ezj∑k=1Kezk\sigma(z)_j=\frac {e^{z_j}}{\sum^K_{k=1}e^{z_k}}σ(z)j=∑k=1Kezkez...原创 2020-04-23 01:04:52 · 1371 阅读 · 0 评论