1.回归
用一个或多个自变量来预测因变量的数学方法。
给出一个点集,构造一个函数来拟合这个点集,并且尽可能的让该点集与拟合函数间的误差最小,如果这个函数曲线是一条直线,那就被称为线性回归,如果曲线是一条三次曲线,就被称为三次多项回归。
2.线性回归
step1:建立模型
x表示自变量,y表示因变量,h(Hypothesis)表示将输入变量映射到输出变量y的函数,对应一个因变量的线性回归(单变量线性回归)公式如下:
step2:求解两个参数
为了使选取的参数和使得函数尽可能接近y值,采用最小二乘法。在回归方程里,最小化误差平方和方法是求特征对应回归系数的最佳方法。误差是指预测y值和真实y值之间的差值,使用误差的简单累加将使得正差值和负差值相互抵消,所采用的平方误差(最小二乘法)如下:
在数学上,求解过程就转化为求一组值使上式取到最小值,最常见的求解方法是梯度下降法(Gradient Descent)。根据平方误差,定义该线性回归模型的损耗函数(Cost Function)为,公式如下:
选择适当的参数让其最小化min,即可实现拟合求解过程。
3.线性回归模型
根据样本x和y的坐标,去预估函数h,寻求变量之间近似的函数关系。公式如下:
其中,n表示特征数目,当只有一个因变量x时,称为一元线性回归;而当多个因变量时,成为多元线性回归。我们的目的是使最小化,从而最好的将样本数据集进行拟合,更好地预测新的数据。
联系客服