偏频派认为一个模型的参数是固定的,通过给定的数据可以求解出一个固定的值。比较常使用的参数估计方法是最大似然估计。
贝叶斯派则认为模型的参数都是不确定的,我们可以使用概率论的知识去描述参数的不确定性。比较常用的参数估计方法是最大后验估计。
如上图所示,上面的两张图拟合度不够,这被称为欠拟合。与之相反,右下图完美地拟合了每一个训练数据,但是拟合出的曲线和真实的曲线差别却很大。左下角的图比较好地拟合训练数据,但不是完美拟合,但它拟合出的曲线很接近真实曲线。
其中
通常,为了防止过拟合,都会在目标方程中加入一个正则化项,且通过正则化因子来平衡目标方程与正则化项。简单地理解就是,通过加入一个正则化项,在最小化新的目标方程的时候,并不会使预测值与真实值之间的差达到最小,也就是不会完美拟合,这也就防止了过拟合,提高的系统的泛化能力。下面将通过偏频派与贝叶斯派两个派别分别去解析为什么使用正则化项能防止过拟合。
我们简单说明一下L1与L2范数的区别,通过上面的图我们可以知道在值比较小的地方,L1范数比较陡而L2范数比较平缓。当最小化正则化项(范数)的时候。L1范数可能有些变量的值较大,但有些变量为0。而L2范数的全部变量的值都会比较小,但不会为0。现在让我们总结一下:
我们先简单看下两种常见的连续变量的概率密度函数,高斯分布与拉普拉斯分布,高斯分布比较平滑而拉普拉斯分布比较陡。再来看一下贝叶斯定理:
根据贝叶斯派的观点,变量都是不确定的,且服从一定的分布。现在我们假设变量服从高斯分布,也就是变量的先验分布是高斯分布。
通过上面的图我们可以观察得到,当先验是拉普拉斯分布的时候,在正方形(拉普拉斯分布)与目标函数分布相交与一个轴上,也就是意味着还有参数的值为0 。相反,当先验的高斯分布的时候,w1与w2的值都不为0,但是值都比较小。
无论是那一派,最终都是通过添加范数来解决过拟合问题。不同的是解析的方法,偏频派从误差的角度去解析而贝叶斯从先验分布的角度去解析。
联系客服