常见的梯度下降算法原理

2020-05-04 机器学习 0 Comments

前言

梯度下降算法（Gradient Descent Optimization）是神经网络模型训练最常用的优化算法。对于深度学习模型，基本都是采用梯度下降算法来进行优化训练的。梯度下降算法背后的原理：目标函数 $J(\theta)$ 关于参数 $\theta$ 的梯度将是损失函数（loss function）上升最快的方向。而我们要最小化loss，只需要将参数沿着梯度相反的方向前进一个步长，就可以实现目标函数（loss function）的下降。这个步长 $\eta$ 又称为学习速率。

原始的梯度下降

Batch gradient descent

$1$

批梯度下降，对所有的样本计算梯度后求平均，并更新参数。
因为在执行每次更新时，我们需要在整个数据集上计算所有的梯度，所以批梯度下降法的速度会很慢，同时，批梯度下降法无法处理超出内存容量限制的数据集。批梯度下降法同样也不能在线更新模型，即在运行的过程中，不能增加新的样本。
对于凸误差函数，批梯度下降法能够保证收敛到全局最小值，对于非凸函数，则收敛到一个局部最小值。

SGD

随机梯度下降，对每个样本计算梯度，并更新一次参数。
SGD的运行速度更快
可以用于在线学习
SGD以高方差频繁地更新，导致目标函数出现剧烈波动。
与批梯度下降法的收敛会使得损失函数陷入局部最小相比，由于SGD的波动性，一方面，波动性使得SGD可以跳到新的和潜在更好的局部最优。另一方面，这使得最终收敛到特定最小值的过程变得复杂，因为SGD会一直持续波动。然而，已经证明当我们缓慢减小学习率，SGD与批梯度下降法具有相同的收敛行为，对于非凸优化和凸优化，可以分别收敛到局部最小值和全局最小值。

Mini-batch GD

小批量梯度下降法最终结合了上述两种方法的优点，在每次更新时使用个小批量训练样本
减少参数更新的方差，这样可以得到更加稳定的收敛结果
可以利用最新的深度学习库中高度优化的矩阵优化方法，高效地求解每个小批量数据的梯度。

小结

原始的梯度下降方法有以下问题：

在梯度平缓的维度下降非常慢，在梯度险峻的维度容易抖动
容易陷入局部极小值或鞍点。Zero gradient,gradient descent gets stuck （在高维空间中，鞍点比局部极小值更容易出现）
-选择一个合适的学习率可能是困难的。学习率太小会导致收敛的速度很慢，学习率太大会妨碍收敛，导致损失函数在最小值附近波动甚至偏离最小值
-学习率调整试图在训练的过程中通过例如退火的方法调整学习率，即根据预定义的策略或者当相邻两代之间的下降值小于某个阈值时减小学习率。然而，策略和阈值需要预先设定好，因此无法适应数据集的特点
-对所有的参数更新使用同样的学习率。如果数据是稀疏的，同时，特征的频率差异很大时，我们也许不想以同样的学习率更新所有的参数，对于出现次数较少的特征，我们对其执行更大的学习率

带冲量的梯度下降

Momentum optimization

冲量梯度下降算法是Boris Polyak在1964年提出的，其基于这样一个物理事实：将一个小球从山顶滚下，其初始速率很慢，但在加速度作用下速率很快增加，并最终由于阻力的存在达到一个稳定速率。对于冲量梯度下降算法，其更新方程如下：

$m\leftarrow \gamma \cdot m+\eta \cdot\nabla J(\theta)$

$\theta \leftarrow \theta - m$

可以看到，参数更新时不仅考虑当前梯度值，而且加上了一个积累项（冲量），但多了一个超参，一般取接近1的值如0.9。相比原始梯度下降算法，冲量梯度下降算法有助于加速收敛。当梯度与冲量方向一致时，冲量项会增加，而相反时，冲量项减少，因此冲量梯度下降算法可以减少训练的震荡过程。

Nesterov Accelerated Gradient (NAG)

NAG算法是Yurii Nesterov在1983年提出的对冲量梯度下降算法的改进版本，其速度更快。其变化之处在于计算“超前梯度”更新冲量项，具体公式如下：

$m\leftarrow \gamma \cdot m+\eta \cdot\nabla J(\theta -\gamma \cdot m )$

$\theta \leftarrow \theta - m$

学习率自适应的梯度下降

AdaGrad

AdaGrad是Duchi在2011年提出的一种学习速率自适应的梯度下降算法。在训练迭代过程，其学习速率是逐渐衰减的，经常更新的参数其学习速率衰减更快，这是一种自适应算法。其更新过程如下：

$s\leftarrow s + \nabla J(\theta)\odot \nabla J(\theta)$

$\theta \leftarrow \theta-\frac{\eta}{\sqrt{s+\varepsilon}}\odot \nabla J(\theta)$

把每一维度的梯度^2和记录下来，每次学习率都除以这个和
每一维度的学习率不一样，且都在不断减小
在梯度大的维度，减小下降速度；在梯度小的维度，加快下降速度
让学习率适应参数，对于出现次数较少的特征，我们对其采用更大的学习率，对于出现次数较多的特征，我们对其采用较小的学习率。因此，Adagrad非常适合处理稀疏数据。
Adagrad算法的一个主要优点是无需手动调整学习率
Adagrad的一个主要缺点是它在分母中累加梯度的平方：由于每增加一个正项，在整个训练过程中，累加的和会持续增长。这会导致学习率变小以至于最终变得无限小，在学习率无限小时，Adagrad算法将无法取得额外的信息。