首页 >> 知识 >> 梯度下降法求解极值、近似根

梯度下降法求解极值、近似根

目录 一、简介 (一)意义 (二)描述 (三)梯度下降算法的数学解释 (四)三种梯度下降法 二、梯度下降法手工求解极值 (一)题目 (二)计算过程 三、Excel用梯度下降求解近似根 四、用Jupyter做线性回归问题求解 (一)最小二乘法求解 (二)梯度下降法求解 (三)对结果进行比较 五、参考资料

一、简介 (一)意义 微分: 函数图像中,某点的切线的斜率/函数的变化率 分为单变量微分与多变量微分 梯度下降法: 主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值,是一个一阶最优化算法,通常也称为最速下降法。 在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向 (二)描述

梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景:一个人被困在山上,需要从山上下来(i.e. 找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着山的高度下降的地方走,同理,如果草莓视频在线观看APP的目标是上山,也就是爬到山顶,那么此时应该是朝着最陡峭的方向往上走。然后每走一段距离,都反复采用同一个方法,最后就能成功的抵达山谷。

草莓视频在线观看APP同时可以假设这座山最陡峭的地方是无法通过肉眼立马观察出来的,而是需要一个复杂的工具来测量,同时,这个人此时正好拥有测量出最陡峭方向的能力。所以,此人每走一段距离,都需要一段时间来测量所在位置最陡峭的方向,这是比较耗时的。那么为了在太阳下山之前到达山底,就要尽可能的减少测量方向的次数。这是一个两难的选择,如果测量的频繁,可以保证下山的方向是绝对正确的,但又非常耗时,如果测量的过少,又有偏离轨道的风险。所以需要找到一个合适的测量方向的频率,来确保下山的方向不错误,同时又不至于耗时太多!

首先,草莓视频在线观看APP有一个可微分的函数。这个函数就代表着一座山。草莓视频在线观看APP的目标就是找到这个函数的最小值,也就是山底。根据之前的场景假设,最快的下山的方式就是找到当前位置最陡峭的方向,然后沿着此方向向下走,对应到函数中,就是找到给定点的梯度 ,然后朝着梯度相反的方向,就能让函数值下降的最快!因为梯度的方向就是函数之变化最快的方向(在后面会详细解释) 所以,草莓视频在线观看APP重复利用这个方法,反复求取梯度,最后就能到达局部的最小值,这就类似于草莓视频在线观看APP下山的过程。而求取梯度就确定了最陡峭的方向,也就是场景中测量方向的手段。那么为什么梯度的方向就是最陡峭的方向呢?

根据梯度的意义梯度实际上就是多变量微分的一般化。 例如: 草莓视频在线观看APP可以看到,梯度就是分别对每个变量进行微分,然后用逗号分割开,梯度是用包括起来,说明梯度其实一个向量。这也就说明了为什么草莓视频在线观看APP需要千方百计的求取梯度!草莓视频在线观看APP需要到达山底,就需要在每一步观测到此时最陡峭的地方,梯度就恰巧告诉了草莓视频在线观看APP这个方向。梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,这正是草莓视频在线观看APP所需要的。所以草莓视频在线观看APP只要沿着梯度的方向一直走,就能走到局部的最低点!

(三)梯度下降算法的数学解释 数学公式:

J是关于Θ的一个函数,草莓视频在线观看APP当前所处的位置为Θ0点,要从这个点走到J的最小值点,也就是山底。首先草莓视频在线观看APP先确定前进的方向,也就是梯度的反向,然后走一段距离的步长,也就是α,走完这个段步长,就到达了Θ1这个点! 注意:α(步长/学习率)取值不能太大也不能太小,太小的话,可能导致迟迟走不到最低点,太大的话,会导致错过最低点。梯度前加一个负号,意味着朝着梯度相反的方向前进。

(四)三种梯度下降法 批量梯度下降法(Batch Gradient Descent, BGD):批量梯度下降法在计算优化函数的梯度时利用全部样本数据,n表示总的样本数。 计算公式: 迭代公式: 小批量梯度下降法(Mini-batch Gradient Descent, MBGD) 随机梯度下降法在计算优化函数的梯度时利用随机选择的一个样本数据 梯度计算公式: 迭代公式: 随机梯度下降法(Stochastic Gradient Descent, SGD) 小批量梯度下降法在计算优化函数的梯度时利用随机选择的一部分样本数据,k表示选取样本的数目 梯度计算公式: 迭代公式为: 三种方式的比较 BGD(批量) SGD(随机) MBGD(小批量) 优点 非凸函数可保证收敛至全局最优解 计算速度快 计算速度快,收敛稳定 缺点 计算速度缓慢,不允许新样本中途进入 计算结果不易收敛,可能会陷入局部最优解中 —— 二、梯度下降法手工求解极值 (一)题目

(二)计算过程

1.设置初始点及学习率

初始点: x 0 = ( x 1 0 , x 2 0 ) T = ( 3 , 2 ) T x^0=(x_1^0,x_2^0)^T=(3,2)^T x0=(x10​,x20​)T=(3,2)T 学习率: λ λ λ

初始点和学习率是自己随意设置的,这里学习率就不预设值,当然也可以预先设置学习率的值,只不过取值不是很好确定,取值取得不是很好,可能要迭代很多次

2.计算初始点的梯度

梯度计算: ▽ f ( x ) = ( 2 3 x 1 , x 2 ) ▽f(x)=(frac{2}{3}x_1,x_2) ▽f(x)=(32​x1​,x2​) 初始点的梯度(将 x 0 x^0 x0的值代入上面的梯度计算): ▽ f ( x 0 ) = ( 2 , 2 ) ▽f(x^0)=(2,2) ▽f(x0)=(2,2)

3.更新迭代公式

<
网站地图