• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

RNN训练技巧

作者:云创智学|发布时间:2022-04-25 13:43:33.0|来源:云创智学

前面介绍RNN训练算法BPTT无法解决长时依赖问题(即当前的输出与前面很长的一段序列有关,一般超过十步就无能为力了),因为BPTT会带来所谓的梯度消失或梯度爆炸问题(vanishing/exploding gradient problem),这导致训练时梯度不能在较长序列中一直传递下去,从而使RNN无法捕捉到长距离的影响。


梯度爆炸更容易处理一些。因为梯度爆炸的时候,我们的程序会收到NaN错误。我们也可以设置一个梯度阈值,当梯度超过这个阈值的时候可以直接截取。


梯度消失更难检测,而且也更难处理一些。一般有三种方法应对梯度消失问题:


1、合理的初始化权重值。初始化权重,使每个神经元尽可能不要取极大或极小值,以躲开梯度消失的区域;


2、使用ReLU代替sigmoid和tanh作为激活函数;


3、使用其他结构的RNNs,比如长短时记忆网络(LTSM: Long Short-Term Memory Neural Network)

联系方式
企业微信