打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
StatQuest生物统计学 - 线性拟合的R2和p值

R2是拟合所能解释的数据波动的比例p值是拟合只是随机变异的可能性大小

上一节StatQuest生物统计学 - 拟合基础已经讲过线性拟合,了解了直线拟合和曲线拟合的一般方法,但是如何衡量线性拟合的效果呢?

数据拟合后的效果由两个参数来衡量:一个是R2,另一个是p值。

R2是拟合所能解释的数据波动的比例

由于随机误差和变量效应的存在,对于任何任何测定数据相应变量Y,它的值都可以由变量效应X以及随机误差来表示:Y=X+Error或者Y=X1+X2+X3+...+Error

假如一次拟合后,数据波动大幅下降,那么就可以说这个拟合可以很好的解释数据趋势,而这个数据波动下降的比例就是R2。在上一节的“拟合基础”中,已经知道直线拟合的经典方法是最小二乘法,而最小二乘法的基本思想就是让拟合后的数据点同原数据之间的残差平方和(Sum of Squared Residuals,SS)最小,而R2的计算也就是根据拟合前后的残差平方和计算出来的。

以小鼠大小与小鼠重量之间的关系为例(例子1),数据点见“下图 小鼠大小与小鼠重量”,则拟合方程的R2就等于[SS(mean)-SS(fit)] / SS(mean)

具体来说,SS(mean)是小鼠大小的总波动性衡量,也就是'下图 小鼠大小的平均值'所示的数据点同平均值之间的平方残差之和(残差是平均值同数据点之间的差值)。

SS(fit)代表拟合后,也就是将小鼠重量纳入考虑后小鼠大小的波动性大小。

所以SS(mean)-SS(fit)就代表了拟合所解释的波动性大小,而R2自然就代表了拟合所解释的数据波动比例。

为何SS(mean)可以代表小鼠大小的总波动性?

一组数据在不进行拟合的时候,可以使用平均值来衡量,所以所有点同mean之间的残差平方和就是数据的总波动大小。

对于此例来说,SS(mean)=100,SS(fit=40),所以R2 = (100-40)/100=60%,表明拟合后可以很好的降低数据波动,也就是说将小鼠重量纳入模型后,它就可以解释60%的原数据波动情况。

StatQuest-week10-1

其实更一般的情况下,数据波动应该是由方差来衡量的,也就是说R2=[Var(mean)-Var(fit)] / Var(mean),Var(mean)是总方差,Var(fit)是拟合后的方差。

其中,Var(mean)=SS(mean)/n,Var(fit)=SS(fit)/n,n是样本量大小。

只是由于拟合前后的样本量都是一样的,所以才可以使用R2=[SS(mean)-SS(fit)] / SS(mean)取代。

p值是拟合只是随机变异的可能性大小

知道了R2的统计学意义之后,再来看模型的p值的统计学意义是什么。

考虑一下下述情况,对于样本量是2的数据,那么由于两点之间必有一条直线,所以此时的拟合会得到很高的R2,R2=100%,然而我们知道这是没有什么意义的,为了更一步的区分这种情况,就需要引入另一个概念p值,它代表有多大的可能性表明本次拟合只是一次随机事件。

StatQuest-week10-2

拟合的p值是根据F检验得出来的,也就是说需要计算F统计量,

F =Var(fit)/Var(non-fit)=[SS(mean)-SS(fit)/(Num.fit-Num.mean)]/[SS(fit)/n-Num.fit]

其中SS(mean)和SS(fit)都是指的残差平方和。Num.fit是指的拟合方程式的参数数量,对于例子1小鼠大小来说参数有两个:截距和小鼠重量。Num.mean是指的不进行拟合时的参数数量,参数只有平均值,因此数量为1。

知道了F统计量,如何计算p值呢?

首先需要知道p值是如何计算的,p值是3个事件概率的加和:当前事件的发生的概率、同当前事件发生概率相同的事件概率以及小于当前事件发生概率的事件概率。

举例来说,假如下图代表2000年中国女性的平均身高,其中低于142cm和高于169cm的人的概率是一样的,各2.5%。那么“事件一个人的身高大于169”的p值就等于P(Height>169)+P(Height<>

StatQuest-week10-3

而对于F检验来说,如下图,它是例子1拟合的F曲线(概率密度曲线),F曲线是由自由度决定的,也就是由(Num.fit-Num.mean)和(n-Num.fit)决定。

下图中F=5.32右侧概率为0.05,那么例子1中的拟合若想有统计学意义,F值必须大于5.32。

假定已经计算出例子1的F值为8,那么p值就等于F=8右侧的概率0.022。由于p值小于0.05,因此是统计学上的小概率事件,所以不太可能是偶尔发生的随机事件,而是拟合有统计学意义。

StatQuest-week10-4

参考资料

StatQuest课程:https://statquest.org/video-index/


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
mcmc
StatQuest生物统计学 - FDR及Benjamini-Hochberg方法
统计学中的置信区间是指什么?
js日期格式化
sklearn机器学习笔记:数据预处理与特征工程
PyTorch 源码解读之 BN & SyncBN
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服