君子博学而日参省乎己,则知明而行无过矣[1]。
PS: GitHub page 无法渲染 LaTeX 公式,严重影响阅读体验,所以特地写了一个通过引用图片显示公式的版本(公式自定义编号问题尚未解决),原 LaTeX 公式版本在 这里,另外也将原 markdown
文件生成了可供完美阅读的 pdf 格式。
目前用于训练神经网络的算法通常是基于梯度下降法进行误差反向传播[2],核心思想是以目标函数的负梯度方向为搜索方向,通过每次迭代使待优化的目标函数逐步减小,最终使误差函数达到极小值。附加动量因子记忆上次迭代的变化方向[3],可以采用较大的学习速率系数以提高学习速度,但是参数调整优化过程依然线性收敛,相对速度依然较慢。
我们选取 Rosenbrock 函数 作为测试优化算法性能的函数,这是一个非凸函数,由公式 (1) 决定:
为了测试不同 learning rate
下梯度下降算法的表现,我们采用了 4
种优化策略:
策略 1 下梯度下降法寻找最优解的路径及其在 x-y
平面投影的俯视图如下所示:
策略 2 下寻找最优解的路径及其在 x-y
平面投影的俯视图如下所示:
策略 3 下寻找最优解的路径及其在 x-y
平面投影的俯视图如下所示:
策略 4 下寻找最优解的路径及其在 x-y
平面投影的俯视图如下所示:
根据结果,明显可以看出学习率 learning rate
选择过小或过大会导致网络训练过慢或震荡发散,整个网络的训练速度对学习率的选取依赖程度很高。完整的代码及 jupyter notebook
文件已上传至该 repo
的 codes
和 notebooks
文件夹:
LM算法[4]是一种利用标准数值优化技术的快速算法,具有 高斯牛顿法 的局部收敛性和梯度下降法的全局特性,在局部搜索能力上强于梯度下降法。LM算法基本思想是先沿着负梯度方向进行搜索,然后根据牛顿法在最优值附近产生一个新的理想的搜索方向。LM算法具有二阶收敛速度,迭代次数很少,可以大幅度提高收敛速度和算法的稳定性,避免陷入局部最小点的优点。
第 k+1
次迭代时模型的参数由 决定[5]:
其中, 为 Jacobian矩阵, 为期望值 与在参数 下函数 的差。
LM算法受参数 的影响较大,当 取较大值时算法更加接近于带小步长的梯度下降法,当 值取较小值时更加接近高斯-牛顿算法。
在实际使用的情况下,通常采取的策略是开始时使用较小的 值,使得模型能够很快收敛,当误差降低较慢时再采用较大 使得最终模型参数收敛于最优值。以下给出当已知最优参数 的情况下LM算法的寻优路径及其在 x-y
平面投影的俯视图如下所示( 的值固定为 )。
然后给出未知最优参数情况下LM算法的寻优路径及其在 x-y
平面投影的俯视图如下所示( 的值固定为 )。
无论是哪种情况,在两张图中都可以明显的看出LM算法较梯度下降算法收敛更加迅速,但是在最优值附近可能会发生震荡的现象。关于通过LM算法求 Rosenbrock 函数极小值的完整代码及 jupyter notebook
文件已上传至该 repo
的 codes
和 notebooks
文件夹:
[2]:Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Cognitive modeling, 1988, 5(3): 1.
[3]:Vogl T P, Mangis J K, Rigler A K, et al. Accelerating the convergence of the back-propagation method[J]. Biological cybernetics, 1988, 59(4-5): 257-263.
[4]:Levenberg K. A method for the solution of certain non-linear problems in least squares[J]. Quarterly of applied mathematics, 1944, 2(2): 164-168.
[5]:Ван Л. Петросян О.Г. Распознавание лиц на основе классификации вейвлет признаков путём вейвлет-нейронных сетей // Информатизация образования и науки. 2018. №4. С. 129-139.