解决梯度爆炸问题可以利用LSTM网络
也可以用clip gradients 算法https://blog.youkuaiyun.com/jiachen0212/article/details/80285648
相比于传统的 RNN 和 CNN,attention 机制具有如下优点:
-
一步到位的全局联系捕捉,且关注了元素的局部联系;attention 函数在计算 attention value 时,是进行序列的每一个元素和其它元素的对比,在这个过程中每一个元素间的距离都是一;而在时间序列 RNNs 中,元素的值是通过一步步递推得到的长期依赖关系获取的,而越长的序列捕捉长期依赖关系的能力就会越弱。
-
并行计算减少模型训练时间;Attention 机制每一步的计算都不依赖于上一步的计算结果,因此可以并行处理。
-
模型复杂度小,参数少
但 attention 机制的缺点也比较明显,因为是对序列的所有元素并行处理的,所以无法考虑输入序列的元素顺序,这在自然语言处理任务中比较糟糕。因为在自然语言中,语言的顺序是包含了十分多的信息的,如果缺失了该部分的信息,则得到的结果往往会大大折扣。
参考资料:https://www.cnblogs.com/ydcode/p/11038064.html
利用LSTM进行空气污染预测的小实验
容易上手