（四）从零开始学人工智能—数学基础:导数

导数

导数(Derivative)的几何意义可能很多人都比较熟悉：当函数定义域和取值都在实数域中的时候，导数可以表示函数曲线上的切线斜率。除了切线的斜率，导数还可以表示该点的变化率。可以表示为

f^\prime(x_0)=\lim_{\Delta x \to 0}{\frac{\Delta y}{\Delta x}}=\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}} \tag{1}f′(x0)=Δx→0limΔxΔy=Δx→0limΔxf(x0+Δx)−f(x0)(1)

将上面的公式表示为图像如图

简单点说，导数代表了在自变量变化趋于无穷小的时候，函数的变化与自变量变化的比值就是导数，其几何意义是该点的切线，物理意义有该时刻的瞬时变化率。

例如：在物理学中有平均速度和瞬时速度之说。

平均速度为

v=\frac{s}{t} \tag{2}v=ts(2)

其中vv表示平均速度，ss表示路程，tt表示时间。这个公式可以改写为

\bar{v}=\frac{\Delta s}{\Delta t}=\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t} \tag{3}vˉ=ΔtΔs=Δts(t0+Δt)−s(t0)(3)

其中\Delta sΔs表示两点之间的距离，而\Delta tΔt表示走过这段距离需要花费的时间。当\Delta tΔt趋向于0（\Delta t \to 0Δt→0）时，也就是时间变得很短时，平均速度也就变成了在t_0t0时刻的瞬时速度，表示成如下形式：

v(t_0)=\lim_{\Delta t \to 0}{\bar{v}}=\lim_{\Delta t \to 0}{\frac{\Delta s}{\Delta t}}=\lim_{\Delta t \to 0}{\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t}} \tag{4}v(t0)=Δt→0limvˉ=Δt→0limΔtΔs=Δt→0limΔts(t0+Δt)−s(t0)(4)

实际上，上式表示的是路程ss关于时间tt的函数在t=t_0t=t0处的导数。一般的，这样定义导数：如果平均变化率的极限存在，即有

\lim_{\Delta x \to 0}{\frac{\Delta y}{\Delta x}}=\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}} \tag{5}Δx→0limΔxΔy=Δx→0limΔxf(x0+Δx)−f(x0)(5)

则称此极限为函数 y=f(x)y=f(x) 在点 x_0x0 处的导数。记作 f'(x_0)f′(x0) 或 y'\vert_{x=x_0}y′∣x=x0 或 \frac{dy}{dx}\vert_{x=x_0}dxdy∣x=x0 或 \frac{df(x)}{dx}\vert_{x=x_0}dxdf(x)∣x=x0。

通俗地说，导数就是曲线在某一点切线的斜率。

拓展与思考

微分、导数、积分，这三者之间，有什么联系？

参考：https://www.zhihu.com/question/264955988

2.3.2 偏导数

既然谈到偏导数(Partial derivative)，那就至少涉及到两个自变量。以两个自变量为例，z=f(x,y)z=f(x,y)，从导数到偏导数，也就是从曲线来到了曲面。曲线上的一点，其切线只有一条。但是曲面上的一点，切线有无数条。**而偏导数就是指多元函数沿着坐标轴的变化率。 **

注意：直观地说，偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

设函数z=f(x,y)z=f(x,y)在点(x_0,y_0)(x0,y0)的领域内有定义，当y=y_0y=y0时，zz可以看作关于xx的一元函数f(x,y_0)f(x,y0)，若该一元函数在x=x_0x=x0处可导，即有

\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A \tag{5}Δx→0limΔxf(x0+Δx,y0)−f(x0,y0)=A(5)

函数的极限AA存在。那么称AA为函数z=f(x,y)z=f(x,y)在点(x_0,y_0)(x0,y0)处关于自变量xx的偏导数，记作f_x(x_0,y_0)fx(x0,y0)或\frac{\partial z}{\partial x}\vert_{y=y_0}^{x=x_0}∂x∂z∣y=y0x=x0或\frac{\partial f}{\partial x}\vert_{y=y_0}^{x=x_0}∂x∂f∣y=y0x=x0或z_x\vert_{y=y_0}^{x=x_0}zx∣y=y0x=x0。

偏导数在求解时可以将另外一个变量看做常数，利用普通的求导方式求解，比如z=3x^2+xyz=3x2+xy关于xx的偏导数就为z_x=6x+yzx=6x+y，这个时候yy相当于xx的系数。

如下图的动态演示，某点(x_0,y_0)(x0,y0)处的偏导数的几何意义为曲面z=f(x,y)z=f(x,y)与面x=x_0x=x0或面y=y_0y=y0交线在y=y_0y=y0或x=x_0x=x0处切线的斜率。

注：图片引用自公众号“遇见数学”

导数和偏导数有什么区别？

导数和偏导没有本质区别，如果极限存在，都是当自变量的变化量趋于0时，函数值的变化量与自变量变化量比值的极限。

一元函数，一个yy对应一个xx，导数只有一个。

二元函数，一个zz对应一个xx和一个yy，有两个导数：一个是zz对xx的导数，一个是zz对yy的导数，称之为偏导。

求偏导时要注意，对一个变量求导，则视另一个变量为常数，只对改变量求导，从而将偏导的求解转化成了一元函数的求导。

2.3.3 方向导数、梯度

偏导只是多元函数沿着坐标轴的变化率，当我们扩展到曲面，如下图，能否沿着任意方向的变化率呢？

在上图曲面中，可以作无数条过AA点的曲线（图中画出了3条示例），每一根曲线都可以作一条切线，也即是可以得到任意方向的变化率。这就是方向导数(Directional Derivative)，进一步地，对于其中方向导数取最大值的方向就是梯度(Grad)，也就是函数变化率最大的方向。如下图，观察底部的箭头指向（仅表示方向），其中蓝色表示方向导数，黑色表示梯度，梯度方向始终指向函数值上升最大的方向。