transformer中pos embedding原理

TensorFlow代码如下

def get_position_encoding(
    length, hidden_size, min_timescale=1.0, max_timescale=1.0e4):
  """Return positional encoding.

  Calculates the position encoding as a mix of sine and cosine functions with
  geometrically increasing wavelengths.
  Defined and formulized in Attention is All You Need, section 3.5.

  Args:
    length: Sequence length.
    hidden_size: Size of the
    min_timescale: Minimum scale that will be applied at each position
    max_timescale: Maximum scale that will be applied at each position

  Returns:
    Tensor with shape [length, hidden_size]
  """
  position = tf.to_float(tf.range(length))
  num_timescales = hidden_size // 2
  log_timescale_increment = (
      math.log(float(max_timescale) / float(min_timescale)) /
      (tf.to_float(num_timescales) - 1))
  inv_timescales = min_timescale * tf.exp(
      tf.to_float(tf.range(num_timescales)) * -log_timescale_increment)
  scaled_time = tf.expand_dims(position, 1) * tf.expand_dims(inv_timescales, 0)
  signal = tf.concat([tf.sin(scaled_time), tf.cos(scaled_time)], axis=1)
  return signal

假设length=5 ,hidden_size=14,代表一个句子5个单词,每个单词向量14维
下面按行解释
19:词维度除以2,因为词维度一半要求sin,一半要求cos

20:因子log(max/min) / (7-1)

23:行向量[0,1,2,3,4,5,6] * l o g ( m a x / m i n ) 6 \frac{log(max/min)}{6} 6log(max/min)

[ 0 ∗ l o g ( m a x / m i n ) 6 , 1 ∗ l o g ( m a x / m i n ) 6 , 2 ∗ l o g ( m a x / m i n ) 6 , 3 ∗ l o g ( m a x / m i n ) 6 , 4 ∗ l o g ( m a x / m i n ) 6 , 5 ∗ l o g ( m a x / m i n ) 6 , 6 ∗ l o g ( m a x / m i n ) 6 ] [\frac{0*log(max/min)}{6},\frac{1*log(max/min)}{6},\frac{2*log(max/min)}{6},\frac{3*log(max/min)}{6},\frac{4*log(max/min)}{6},\frac{5*log(max/min)}{6},\frac{6*log(max/min)}{6}] [60log(max/min),61log(max/min),62log(max/min),63log(max/min),64log(max/min),65log(max/min),66log(max/min)]

就是将log(max/min)均分7份(词维度一半)

25:将维度为length的列向量[0,1,2,3,4]乘以上一步的行向量

得到shape为 [ l e n g t h , h i d d e n _ s i z e 2 ] [length,\frac{hidden\_size}{2}] [length,2hidden_size]的矩阵scaled_time ,

26:分别计算scaled_time 的sin和cos得到两个 [ l e n g t h , h i d d e n _ s i z e 2 ] [length,\frac{hidden\_size}{2}] [length,2hidden_size]的矩阵,将这两个矩阵按列拼接成
[ l e n g t h , h i d d e n _ s i z e ] [length,{hidden\_size}] [length,hidden_size]的矩阵

定义:上下文无关文法是一种描述形式语言的数学模型,由四元组 G=(V,Σ,R,S) 构成。其中,V 是非终结符集合,Σ 是终结符集合,R 是产生式规则集合,S 是起始符号。 示例:在文档中,有 G(E) 和 G(S) 等上下文无关文法,用于描述表达式的结构。例如,G(E) 的定义如下: E→T∣E+T∣E−T T→F∣T∗F∣T/F F→(E)∣i 这里,E、T、F 是非终结符,而 +、−、∗、/、(、) 和 i 是终结符。该文法用于描述算术表达式的构造方式。 推导是根据文法规则从起始符号逐步生成句子的过程,分为两种类型: 最左推导:始终扩展当前最左边的未展开非终结符。 最右推导:始终扩展当前最右边的未展开非终结符。 例如,在 G(N) 的上下文无关文法中,数字串的最左推导过程可以表示为: N⇒ND⇒NDD⇒⋯⇒DDD⇒0DDD⇒01DD⇒012D⇒0127 语法树是通过图形方式展示字符串如何根据文法规则进行推导的结构。它清晰地反映了推导过程中的层次关系。例如,对于表达式 i+i∗i,其语法树可以直观地展示操作符和操作数之间的层次结构。 如果一个句子存在多个不同的语法树,即可以通过多种推导过程生成,那么这个文法就被认为是二义性的。例如,句子 iiiei 有两个可能的语法树,这表明该文法存在二义性。 在自动机理论中,确定化是指将非确定有限自动机(NFA)转换为确定有限自动机(DFA),以确保每个状态在读取输入符号时只有一个确定的转移路径。最小化则是指去除 DFA 中的冗余状态,以获得更简洁的模型。文档中提供了 DFA 确定化和最小化的详细步骤示例。 正则表达式是一种用于匹配字符串模式的工具。文档中给出了许多正则表达式的例子,例如 (0∣1)∗01,用于匹配所有以“01”结尾的由 0 和 1 组成的字符串。正则表达式在文本处理和模式匹配中具有广泛应用。 综上所述,编译原理不仅涉
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值