transformer中使用的position embedding为什么是加法
给每一个位置 x i ∈ R ( d , 1 ) x^{i} \in R^{(d, 1)} xi∈R(d,1) concat 上一个代表位置信息的 one-hot 向量 p i ∈ R ( N , 1 ) p^{i} \in R^{(N, 1)} \quad pi∈R(N,1) (N代表共有 N \mathrm{N} N 个位置)形成 x p i ∈ R ( d + N , 1 ) x_{p}^{i} \in R^{(d+N, 1)} xpi∈R