最优化方法

就是给一个初点，找到一个收敛点列，迭代式即 $x_{k+1}=x_k+a_kd_k$ 其中 $a_k$ 为常数且大于0

GD

假设f(x)连续可微，并且导数在 $x_k$ 处不为0，我们有一阶Taylor展开 $f(x)=f(x_k)+(x-x_k)^T\nabla f(x_k) + o(||x-x_k||)\approx f(x_k)+(x-x_k)^T\nabla f(x_k)$ 这里我们需要让x随着k增大函数值减小即 $f(x)-f(x_k)=(x-x_k)^T\nabla f(x_k)=a_kd_k^T\nabla f(x_k)=a_kd_k^Tg(x_k)<0$ 然而负数有很多，我们取最小的那个，由Cauchy-Schwarts $|d^T_kg(x_k)|\le ||d_k||||g_k||$ 当且仅当 $d_k=-g_k$ 时成立，因此GD推导公式为 $x_{k+1}=x_k-a_kg_k$

Newton

设二阶Taylor展开 $f(x)\approx f(x_k)+(x-x_k)^T\nabla f(x_k) + \frac{1}{2}(x-x_k)^T\nabla^2 f(x_k)(x-x_k)$ 同GD我们求后两项和最小值，求导有 $\nabla f(x_k)+\nabla^2 f(x_k)(x-x_k)=0$ 假设Hessian矩阵 $\nabla^2 f(x_k)$ 这玩意儿正定，极值点为 $x_{k+1} = x_k -\nabla^2 f(x_k)^{-1}\nabla f(x_k)$ 显然f(x)如果是二次凸函数一次迭代就到位，而对于非二次函数，牛顿法并不能保证经过有限次迭代就可以求得最优解，有一点是在极小点附近目标函数接近于二次函数，因此其收敛速度很快。对于Newton法可以加系数成为阻尼牛顿法即 $x_{k+1} = x_k -\eta \nabla^2 f(x_k)^{-1}\nabla f(x_k)$

上面的两个算法都是往梯度下降最大的方向走，如果每次路线正交也可以收敛，比如CG

CG(共轭梯度)

对于任意n维向量 $d_i$ ， $d_j$ 有 $d_i^TGd_j=0$ 则称 $d_i$ ， $d_j$ 关于G共轭。虽然梯度下降法的每一步都是朝着局部最优的方向前进的，但是它在不同的迭代轮数中会选择非常近似的方向，说明这个方向的误差并没通过一次更新方向和步长更新完，在这个方向上还存在误差，因此参数更新的轨迹是锯齿状。共轭梯度法的思想是，选择一个优化方向后，本次选择的步长能够将这个方向的误差更新完，在以后的优化更新过程中不再需要朝这个方向更新了。当然这玩意儿明显理想状态，现实是我们并不知道极小点在哪里，所以不可能找到准确的正交向量，否则其实可以直接求出，也就是说 $x_{k+1}=x_k+a_kd_k$ 我们希望 $d_k$ 方向上不再进行修正，因此有 $d_k^Te_{k+1}=d_k^T(e_k+a_kd_k)=0$ 但是明显 $e_k$ 是未知的，因而 $a_k$ 是求不粗来的，我们引入正交基为d的矩阵G并使得 $d_k^TGe_{k+1}=0$ 解得 $a_{k}=-\frac{d_k^TGe_k}{d_k^TGd_k}$ 而 $Ge_k=G(e_{k-1}+a_{k-1}d_{k-1})=Ge_{k-1}+Ga_{k-1}d_{k-1}$ 可迭代获得 $Ge_k$ ，另一方面由Gram-Schmidt正交化对线性无关向量 $u_1,u_2...u_n$ 有 $d_k=u_k-\sum \beta_{ki}d_i$ 因此 $d_i^TGd_j=u_i^TGd_j-\sum \beta_{ik}d_k^TGd_j=u_i^TGd_j-\beta_{ij}d_j^TGd_j=0$ 故 $\beta_{ij}=\frac{u_i^TGd_j}{d_j^TGd_j}$ 这玩意儿可以求。总迭代n次即收敛

Quasi-Newton

Newton法每次存Hessian矩阵大，且那玩意儿不一定正定，所以不一定可逆，设 $f(x)\approx f(x_k)+(x-x_k)^T\nabla f(x_k) + \frac{1}{2}(x-x_k)^T\nabla^2 f(x_k)(x-x_k)$ 求导有 $\nabla f(x)\approx \nabla f(x_k) + \nabla^2 f(x_k)(x-x_k)$ 代入 $\nabla f(x_{k-1})\approx \nabla f(x_k) + \nabla^2 f(x_k)(x_{k-1}-x_k)$ 我们变换一下有 $x_{k+1}-x_k\approx \nabla^2f(x_{k+1})^{-1}(\nabla f(x_{k+1})-\nabla f(x_k))$ 设 $x_{k+1}-x_k=H_{k+1}(\nabla f(x_{k+1})-\nabla f(x_k))=p_k=H_{k+1}q_k$ 如果 $H_k$ 为n阶正定，我们构造 $H_{k+1}=H_k+\Delta H_k$ 使得 $H_{k+1}$ 也为正定矩阵。DFP算子 $\Delta H_k=\frac{p_k p_k^T}{p_k^Tq_k}-\frac{H_kq_k q_k^TH_k}{q_k^TH_kq_k}$ 这样每次就不用存每个Hessian矩阵，另外在BFGS中令 $B_{k+1}=H_{k+1}^{-1}$ 有 $\Delta B_k =\frac{q_k q_k^T}{q_k^Tp_k}-\frac{B_kp_k p_k^TB_k}{p_k^TH_kp_k}$ 再逆回来有BFGS算子 $\Delta H_k=(1+\frac{q_k^TH_kq_k}{p_k^Tq_k})\frac{p_k p_k^T}{p_k^Tq_k}-\frac{p_k q_k^T H_k+H_kp_k q_k^T}{p_k^Tq_k}=\frac{(p_k-H_kq_k)p_k^T+p_k(p_k-H_kq_k)^T}{p_k^Tq_k}-\frac{(p_k-H_kq_k)^Tq_k}{(p_k^Tq_k)^2}p_kp_k^T$ 因此 $H_{k+1}=\Delta H_k+H_k=(I-\frac{p_kq_k^T}{p_k^Tq_k})H_k(I-\frac{q_kp_k^T}{p_k^Tq_k})+\frac{p_kp_k^T}{p_k^Tq_k}$ 即有迭代式，因此只需要 $H_0$ 和一堆的 $p_i,q_i$ 即可算出最终结果，大幅度减少内存

nonconvex optimization

最优化方法

GD

Newton

CG(共轭梯度)

Quasi-Newton

results matching ""

No results matching ""