深层模型反向调整的问题与对策

作者：云创智学|发布时间：2022-04-22 09:04:25.0|来源：云创智学

反向传播的问题

梯度弥散：由于sigmod函数在趋于无限大时，梯度会逐渐消失，随着传播深度的增加（如7层以上），残差传播到底层时已经变得太小，梯度的幅度也会急剧减小，导致浅层神经元的权重更新非常缓慢，无法有效进行学习。深层模型也就变成了前几层几乎固定，只能调节后几层的浅层模型，形成梯度弥散（vanishing gradient）。

局部最优：深层模型的每个神经元都是非线性变换，代价函数是高度非凸函数，与浅层模型的目标函数不同。所以采用梯度下降的方法容易陷入局部最优。

解决方案

逐层初始化：2006年，机器学习的大牛——Geoffrey Hinton提出了逐层初始化的解决方案。

梯度下降的效率

批量梯度下降（Batch Gradient Descent）：批量梯度下降中，每计算一次梯度，需要计算所有数据。优点是可以更准确的从正确的方向下降，缺点是训练缓慢，时间开销大。

随机梯度下降（Stochastic Gradient Descent）：随机梯度下降，在每一轮迭代中，随机优化某一条训练数据的。其缺点是，数据的减少使其较难达到最优解，优点是速度有很大提升，且少量数据训练的模型效果的泛化能力更强，在新的数据上，效果不错。

最小批量梯度下降（Mini-Batch Gradient Descent）：实际使用中，现在更多的应用的是最小批量梯度下降，保证速度的同时，其结果也更接近最优解。

深层模型反向调整的问题与对策

作者：云创智学|发布时间：2022-04-22 09:04:25.0|来源：云创智学

友情链接

关于云创

联系我们

深层模型反向调整的问题与对策

作者：云创智学|发布时间：2022-04-22 09:04:25.0|来源：云创智学

推荐课程

大数据与人工智能就业初级班

大数据与人工智能就业高级班

大数据与人工智能就业中级班

人工智能导论

人工智能图像处理应用

大数据分析挖掘实训课

大数据实战能力提升

ChatGPT应用教学

大数据实战能力提升+金牌服务

云计算职业技能竞赛初级课程（视频资源）

大数据平台技术

大数据应用实训工程实战

云计算职业技能竞赛中级课程（带实验平台实战资源）

云计算职业技能竞赛高级资源增强包

云计算职业技能竞赛中级资源增强包

云计算职业技能竞赛初级资源增强包

云计算职业技能竞赛初级课程/（带实验平台实战资源）

友情链接

关于云创

联系我们