如前所述,经典梯度下降算法虽然具有广泛地适用性,但是求解机器学习领域中的训练问题效率非常低,有必要进一步改进。根据概率统计学中的大数定理,当样本量很大或趋于无穷时大量样本的均值与任意一个样本母体近似相等。注意到我们需要求解的正好是梯度关于N个样本的均值,这样如果把每一个样本当作随机的,则在大样本条件下,任意一个样本的梯度与N个样本梯度的均值近似相等。
这样,用一个随机样本的梯度来代替 个样本梯度的均值不仅是可行的,而且减少了计算量提高了计算效率。因为样本是已知的自然也是确定的,为了让已知样本具有随机性,通常采用无放回抽样策略,即从样本集中随机选择一个样本用它的梯度来代替所有样本梯度的均值。这样就增加了随机性,确定的梯度。