1. 交叉熵损失可以大于1,不要和精度搞混 2. 不论Luong还是Ba,attention都是ht = f(ht-1, yt-1, ct) 3. attention里面的ct,叫做context vector