• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

深层模型反向调整的问题与对策

作者:云创智学|发布时间:2022-04-22 09:04:25.0|来源:云创智学

反向传播的问题

梯度弥散:由于sigmod函数在趋于无限大时,梯度会逐渐消失,随着传播深度的增加(如7层以上),残差传播到底层时已经变得太小,梯度的幅度也会急剧减小,导致浅层神经元的权重更新非常缓慢,无法有效进行学习。深层模型也就变成了前几层几乎固定,只能调节后几层的浅层模型,形成梯度弥散(vanishing gradient)。

局部最优:深层模型的每个神经元都是非线性变换,代价函数是高度非凸函数,与浅层模型的目标函数不同。所以采用梯度下降的方法容易陷入局部最优。


解决方案

逐层初始化:2006年,机器学习的大牛——Geoffrey Hinton提出了逐层初始化的解决方案。


梯度下降的效率

批量梯度下降(Batch Gradient Descent):批量梯度下降中,每计算一次梯度,需要计算所有数据。优点是可以更准确的从正确的方向下降,缺点是训练缓慢,时间开销大。

随机梯度下降(Stochastic Gradient Descent):随机梯度下降,在每一轮迭代中,随机优化某一条训练数据的。其缺点是,数据的减少使其较难达到最优解,优点是速度有很大提升,且少量数据训练的模型效果的泛化能力更强,在新的数据上,效果不错。

最小批量梯度下降(Mini-Batch Gradient Descent):实际使用中,现在更多的应用的是最小批量梯度下降,保证速度的同时,其结果也更接近最优解。

联系方式
企业微信