NLP中模型的一些总结

最新推荐文章于 2023-08-21 17:15:34 发布

原创

最新推荐文章于 2023-08-21 17:15:34 发布 · 2.6k 阅读

5 ·

CC 4.0 BY-SA版权

本文总结了自然语言处理中的各种模型和算法，包括交叉熵损失函数的比较，如sparse_softmax_cross_entropy_with_logits和softmax_cross_entropy_with_logits，以及激活函数如Sigmoid、ReLU和tanh的优缺点。此外，讨论了欠拟合、过拟合的解决方法，优化器如Adam的优势，以及LSTM结构。还涵盖了词嵌入模型如word2vec，以及分词和词性标注中的HMM模型和Viterbi算法的应用。

1. 各种交叉熵损失函数的比较：
sparse_softmax_cross_entropy_with_logits(logits=net, labels=y):labels可以是直接的数字标签，会将其做one-hot操作
softmax_cross_entropy_with_logits中 labels接受one-hot标签。相当于sparse_softmax_cross_entropy_with_logits 对标签多做一个one-hot动作

softmax 和log_softmax:
log_softmax 是在softmax的基础上再做log,目的是为了增加负采样

nn.CrossEntropyLoss() 与 NLLLoss()：NLLLoss()接受做了log_softmax的数据和目标标签。nn.CrossEntropyLoss()会做softmax。若是数据需要负采样可以采用NLLLoss()

tf.nn.sigmoid_cross_entropy_with_logits(logits=net, labels=y)：net和y需要具有相同的type(float)和shape(tensor),适用于类别互不排斥的情况，比如一个样本[0,1,1,0],该样本可能属于两个类别，但这两类别互不排斥
tf.nn.weighted_cross_entropy_with_logits(labels,logits, pos_weight, name=None) 计算具有权重的sigmoid交叉熵sigmoid_cross_entropy_with_logits（），
如：其实是直接正例样本的权重系数：targets * -log(sigmoid(logits)) * pos_weight + (1 - targets) * -log(1 - sigmoid(logits))

2.各种激活函数比较：使用激活函数的作用:通过非线性函数的叠加，使神经网络有足够的能力来抓取复杂的特征，若是不使用激活函数，神经网络输出都是输入的线性函数，多层神经网络也相当于一层。
Sigmoid函数：0-1 区间
优点：1.便于求导的平滑函数。2.压缩数据，保证数据幅度不会特别大。3.适用于前向传播
缺点：1.容易梯度消失，激活函数接近饱和区时，导数为0，根据链式求导法则，后向传播时，需要之前各层导数的乘积，导数结果接近0，导致梯度消失，无法完成深程度训练。
   2.sigmod的输出不是0均值的，会对梯度产生影响。比如 sigmod(wx+b) 对w求导，总是正数和负数，导致在反向传播时，要么往正方向跟新，要么往负方向跟新，导致捆绑效果，收敛缓慢。
   3.幂运算缓慢
tanh函数：-1 - 1 区间：解决了sigmod非0均值的问题，但也存在梯度消失和幂运算缓慢问题
relu函数：max(0,x),斜的直线，大于0
优点：1.SGD算法的收敛速度比sigmod和tanh快，不会有梯度消失问题
   2.计算复杂度低，不涉及指数运算。
   3.适合用于后向传播。
缺点：1.输出不是0均值的。2.不会对数据幅度做压缩，因此数据维度会随着模型层数的增加不断扩张。
   3.神经元坏死现象：某些神经元不会被激活（在负数部分，梯度为0）。产生原因：1.参数