最小二乘法

一、定义

二乘其实是指平方的意思，为什么用平方呢？

因为平方可以消除误差正负方向上的差异，单纯的只比较长度。

另一种通俗的说法叫距离（学术一点叫欧式距离），距离不分上下、左右，只有大小，所以可以用来衡量目标与估计的所有方向偏差累积。

最小二乘法(Least Squares Method)是用来求解过度定参数模型的一种方法。它是找出一个函数,使得这个函数代表的数据点与实际观测的数据点之间的差的平方和最小。

最小二乘法的优点是:

1. 当样本量较大时,它可以获得较为准确的统计参数估计。

2. 它具有线性和非偏性的特点,能够得到统一的最优解。

3. 该方法易于理解和实现。

但是,最小二乘法也有一些局限性,当离群点较多时,容易产生较大误差。同时,它要求自变量的随机误差服从正态分布。

如上图所示：蓝点是真实数据，黄点是每个真实数据的估计值，红线的长短即代表真实与估计距离，目标就是找到一条直线（模型）使得所有红线累和最短，推广到多维空间，就是找到一个超平面，而这个超平面是有数学公式解的！

二、公式

之前我们提到最小二乘法的几何解释就是所有点（观测数据）到直线的距离（y的差值）的差的平方和，其实我们还可以换一种角度来看，把看成是p个n维空间的向量（每个都对应不同的方向），而不是之前n个p维的向量

也就是说，我们要找到一个并且使到上面的距离最小（误差距离最低）即−，而这个最小距离的直线方向和中的每个都是垂直的，所以点积为0：

最小二乘法通用数学公式解

误差方程为:

其最优解为:

其中X由m*n样本输入矩阵：

y为m×1列向量，一般称为标签，对应于简单函数，其实就是指函数值f(x)。

w为n×1 列向量，就是待求的拟和权重参数。

三、应用

最小二乘法有很广泛的应用,主要包括:

回归分析:最小二乘法是回归分析的基础,用来估计回归模型中的参数。如一元线性回归,多元线性回归等。

趋势分析:可以用最小二乘法来拟合时间序列数据,分析数据的趋势和周期性变化。如指数趋势模型,对数线性模型等。

预测分析:最小二乘法得到的回归模型可以用来进行预测分析,预测因变量未来的状况。

插补缺失值:可以用最小二乘法构建的回归模型来预测缺失数据的值。

去趋势化:通过最小二乘法分析时间序列数据的长期趋势,可以将原始数据进行去趋势化,用于其他时间序列分析。

模型选择:可以根据最小二乘法得到的不同模型的误差平方和大小来进行模型选择,选择最优的预测模型。

参数估计:不仅仅是一元线性回归,在许多其他模型中也会使用最小二乘法来估计模型参数,如ARMA模型、ARIMA模型等。

机器学习:在机器学习中的回归问题中,最小二乘法是最常用的方法之一,用来训练回归模型并预测结果。如线性回归、逻辑回归等。

信号处理:在信号处理中,最小二乘法也有很重要的应用,如用来构建一个信号的最小二乘估计,用于滤波和预测等。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。