2019-06-28晚
cs224n-winter2019-assignment4
用pytorch实现seq2seq-attention NMT Model(神经机器翻译模型)
unsqueeze
a = torch.randn(5,4)
for i in range(-3,3):
b = torch.unsqueeze(a,dim=i)
print('{} _th size:{}'.format(i,b.size()))
---------------------
输出
-3 _th size:torch.Size([1, 5, 4])
-2 _th size:torch.Size([5, 1, 4])
-1 _th size:torch.Size([5, 4, 1])
0 _th size:torch.Size([1, 5, 4])
1 _th size:torch.Size([5, 1, 4])
2 _th size:torch.Size([5, 4, 1])
这就是一个维度扩充的意思【只能扩充一维,此函数的参数意为在第i维扩充】。如上若原来为2维,则参数i的范围可在[-3,2]之间,并且是对称的–如下
b1 = torch.unsqueeze(a,dim= 1)
b2 = torch.unsqueeze(a,dim= -2)
b1 == b2
----------------
输出
tensor([[[1, 1, 1, 1]],
[[1, 1, 1, 1]],
[[1, 1, 1, 1]],
[[1, 1, 1, 1]],
[[1, 1, 1, 1]]], dtype=torch.uint8)
bmm
全称为 batch matrix multiplication,具体如下
a = torch.randn(5,4)
a = torch.unsqueeze(a,dim= 1)
print('a.size:{}'.format(a.size()))
b = torch.randn(5,4,6)
e_t = torch.bmm(a,b)
print('e_t.size:{}'.format(e_t.size()))
---------------------
输出
a.size:torch.Size([5, 1, 4])
e_t.size:torch.Size([5, 1, 6])
所以bmm的参数为两个 3-D tensor,并且第一维(tensor.size[0])必须相同,后两维需要满足基本的矩阵乘法维度条件
这里留下一个问题:如上图代码中b维度是(5,4,6),但一般在神经网络里参数维度可能没这么凑巧,这时便需要维度切换—1,permute函数;2,view函数。目前看到的是permute,但这两个函数时貌似输出的元素并不相同,按理说view应该也可以
squeeze【其实按字面就可以理解…】
如下
a = torch.randn(5,4)
a = torch.unsqueeze(a,dim= 1)
# print('a.size:{}'.format(a.size()))
b = torch.randn(5,4,6)
e_t = torch.bmm(a,b)
# print('e_t.size:{}'.format(e_t.size()))
e_t = torch.squeeze(e_t,dim = 1)
print('e_t.size:{}'.format(e_t.size()))
输出
---------------
e_t.size:torch.Size([5, 6])
规则与unsqueeze相同