概述

都说神经网络是一个万能的函数拟合器，如何理解这句话呢？让我们做一些实验，去获取更直观的理解。
为了直观与方便理解，我们用神经网络去拟合一元函数，也就是 y = f ( x ) y=f(x) y=f(x)

实验

如图所示：

拟合一条直线，我们需要使用什么结构的神经网络去拟合它呢？为了理解透彻，我们需要理解单个神经元。

单个神经元的形式为： y = σ ( w x + b ) y = \sigma(wx+b) y=σ(wx+b)

如果去掉 σ \sigma σ，其形式就是 y = w x + b y = wx+b y=wx+b，刚好就是一条直线。也就是说，我们使用一个不带激活函数的神经元，就可以拟合该函数。

如上图所示，使用单个输出神经元，经过20步的训练，神经网络就与目标函数拟合的很好了。所得到的参数如下图所示：

对应的函数为 y = 1.0 x + 0.1 y=1.0x+0.1 y=1.0x+0.1，与目标函数极为接近，再多训练几步即可更为接近。

该函数是一个分段函数
y = { x x ≥ 0 − x x < 0 y =

{\begin{cases} x & x \geq 0 \\ - x & x < 0 \end{cases}

y={x−xx≥0x<0

由于这里不是直线，这就需要用到非线性激活函数了，它可以将直线弯折。由于不涉及曲线，ReLU是比较合适的激活函数：

观察ReLU函数的曲线，一边是水平直线，另一个是一条斜线。如果能够获得2条ReLU曲线，让他们反向叠加，是不是就可以得到目标曲线了？

最终结果如下：

其中2个隐藏神经元为：

输出神经元为： y = y 1 + y 2 y=y_1 + y_2 y=y1+y2，刚好得到目标曲线。

（以上结果未经参数训练，直接通过手工设置参数获得）

y = { x + 3 − 3 ≤ x < 0 3 − x 0 ≤ x < 3 0 o t h e r y =

{\begin{cases} x + 3 & - 3 \leq x < 0 \\ 3 - x & 0 \leq x < 3 \\ 0 & o t h e r \end{cases}

y=⎩⎪⎨⎪⎧x+33−x0−3≤x<00≤x<3other

所需隐藏神经元上升到4个。

网络更加复杂，拟合的曲线也不再完美。

随着目标函数变得更加复杂：

反过来说，更复杂神经网络、更多的数据量，可以用来拟合更复杂的函数。理论上可以拟合任意函数，当然，网络要无限大，数据量也要无限多。

神经网络