nlp领域的巧妙trick

本文介绍了自然语言处理中的两个重要技术:adaptive softmax和region embedding。adaptive softmax是一种针对大规模词汇表的高效语言模型训练方法,通过分层结构减少计算复杂度。region embedding则通过考虑单词的局部上下文来改进文本分类的表示方法,包括Word-Context和Context-Word Region Embedding两种模型。这些技巧有助于提升模型性能并解决数据稀疏性问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. adaptive softmax

​  ICML 2017文章,该方法的灵感来自于hierarchy softmax及其变体,通过一种近似策略来实现超大词典上的语言模型的有效训练。

1.1 特点

  • 该算法的提出利用到了单词分布不均衡的特点(unbalanced word distribution)来形成将单词分成不同的类, 这样在计算softmax时可以避免对词汇量大小的线性依赖关系,降低时间复杂度;
  • 通过结合现代架构和矩阵乘积操作的特点,使其更适合GPU单元的方式进一步加速计算。

1.2 提出动机


g e n e r a l   s o f t m a x = H W H ∈ R ( B ∗ d ) , W ∈ R d ∗ k ( B : b a t c h   s i z e , d : h i d d e n   d i m e n s i o n , k : s i z e   o f   v o c a b u l a r y ) general\,softmax = HW \quad H \in R^{(B*d)},W \in R^{d*k}\\(B:batch\,size, d: hidden\,dimension, k:size\,of\,vocabulary) generalsoftmax=HWHR(Bd),WRdk(B:batchsize,d:hiddendimension,k:sizeofvocabulary)

  • W W W很大的时候,十分耗时,如果固定d和 B B B,上图的曲线记为函数 g ( k ) g(k) g(k),可以看到,大概在 k < k 0 ≈ 50 k<k_{0} \approx 50 k<k050时,时间 g ( k ) g(k) g(k)是一个常量。直到 k > k 0 k>k_{0}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值