打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
新高考增值评价两种模型估计效果的比较研究


摘  要:利用某市84所高中学校首届新高考数据,使用多水平线性回归模型和多水平线性分位数回归模型进行学校增值分析,并比较两种模型增值估计效果 。结果显示:多水平线性分位数回 归模型更适用于新高考数据下的增值评价;多水平线性分位数回归模型在正向进步学校划分方面,比多水平线性回归模型更能体现学科差异,在对高水平群体的增值估计表现中相对更好 。建议使用新高考数据进行增值评价时,可优先考虑采用多水平线性分位数回归模型;对学校进行增值评价时,还应注意选择适切的增值评价技术,平衡增值评价和结果评价之间的关系,拓展非学业增值评价。

关键词:新高考;增值评价;多水平线性回归模型;多水平线性分位数回归模型

中共中央、国务院印发的《深化新时代教育 评价改革总体方案》(以下简称《总体方案》)指出,坚决破除唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,扭转不科学的教育评价导向[1]。 增值评价是破解唯分数评价导向的有效方法之一 。增值评价关注学生的增加值和学校效能,以不同时间段学生的学习成绩评估其成长[2]。中考、高考分数具有较高的信度、效度、区分度,社会认可度高,适合作为增值评价的起点和终点数据 。利用中、高考数据探索增值评价是落实《总体方案》同步推进“四个评价”的有效举措,有利于指导学校教育教学改进、优化教育管理、科学评价学校教育质量。

2021年起,我国部分省份新高考采取“3+1+2”选科模式和“两依据、一参考”录取形式。“3+1+ 2”选科模式将原来文理分科的模式转变为12种选科组合,增加了增值评价的实施难度。新高考成绩包含原始分和等级转换分,这意味着进行增值评价时需要将这两类分数转化到相同的量尺上。在设计采用高考数据进行学生增值评价时,还需要考虑起始点与高考选科模式相似或相同,起始测验的设计水准、组织应与新高考相当,其所需技术、人力和物力均具有实施难度。

当前,运用新高考数据对学生、学校开展增值评价的研究案例较少。本研究以某市84所高中学校为研究对象,以该市第一届全体新高考学生的学业数据为再测水平,以该届学生的中考成绩为基线水平,探究基于新高考数据的多水平线性回归模型与多水平线性分位数回归模型在估计学校增值方面的差异,为探索新高考背景下的增值评价研究提供模型方面选择与参考。

1.文献综述

增值,最初是一个经济学范畴的概念,其在教育领域是指学生进步或教师、学校效能,核心是指学生在学校教育中获得的成长量。20世纪 60年代,美国著名的《科尔曼报告》拉开了增值评价研究与应用的序幕。该报告指出,学生学业发展差异的构成不仅来源于学校教育,而且来自学生家庭背景,仅以学生学业成绩衡量学校办学质量 、教师教学效果并没有很强的说服力[3]。学校效能问题引发人们对学校教育“无效”的恐慌,导致欧美国家掀起了一场以增值评价为核心的学校改革浪潮。最具代表性的是美国田纳西大学的Sanders于1984年设计的田纳西增值评价系统 (Tennessee Value-Added Assessment System,TVAAS)。该系统采用一种数学统计模型,在控制额外变量的基础上,以学生多年的学业成绩计算学业增值,用学生学业增值来评估教师效能[4]。该系统在田纳西州、宾夕法尼亚州、俄亥俄州等多个州被广泛应用。

我国开展增值评价研究相对较晚。1999年,香港教育局开展学业增值研究计划,该研究成果成功地运用于香港学校教育问责[5]。内陆在20世纪90年代开始引进增值评价概念,并开展相关研究 。早期增值评价研究主要以介绍国外增值评价经验和引入技术为主,实证研究相对缺乏。辛涛等研究全面回顾了学校效能增值评价的起源与发展[6];张亮详细介绍了增值评价统计模型[7];马晓强等采用多水平线性回归模型(Hierarchical Linear Model,HLM )对中、高考成绩进行增值评价研究,评估学校效能[8];杜屏等拓宽了增值评价应用的群体范围,采用多水平线性回归模型对农村 学校效能进行增值分析[9]。多水平线性回归模型成为当前我国增值评价的主要统计模型。该模 型的基本思想是基于最小二乘法,将学生层面数据放入第一水平,将群体变量(如班级、学校)放入第二水平,构建基线成绩与再测成绩之间的线性回归方程,同时排除学生性别、家庭社会经济地位等因素影响,得到个体或群体层面的增值[10]

随着增值评价研究的深入,对学校效能的评估逐渐转向对学生成长的评估。增值评价的“天花板效应”等问题逐渐引起关注。传统增值评价模型对处于群体顶端和底端学生的增值评估有失公允,顶端学生进步相对困难,底端学生进步相对容易。采用统一基线标准评估会导致对群体两端学生的评估出现偏差。因此,需要发展更加公平、科学的增值评价方法。杨志明等提出采用学生发展量表破解“天花板效应”,但该方法专业技术要求高,需要进行测验等值处理[11]

基于相似群体评估的学生成长百分等级模型可以很好地解决了上述问题。学生成长百分位(Student Growth Percentile,SGP)是指通过计算一名学生在水平相似的一组学生中相对位置的变化,对其成长进行评估[12]。这一增值理念由Betebenner于2009年提出,随后在美国各州得到广泛使用[13]。我国学者相继介绍了该模型,并进行了实证研究。例如,谢小庆对学生成长百分等级进行了系统介绍,指出该模型具有较好的生态性[14]。在实证研究方面,王帅鸣等采用学生成长百分等级模型对初中生的增值评价进行了研究[15];徐路明依照该理论创建了简易的学生成长百分等级模型,并进行了实践论证[16]。学生成长百分等级模型具有受极端值影响小、公平性明显、便于操作、易于理解等特点,因此,使用较为广泛,接受度较高。

分位数回归模型(Quantile Regression,QR)是目前估计SGP使用最广泛的一种统计方法。该模型计算增值时一般要求数据符合正态分布、满足方差齐性。然而,教育类数据(如学生学业 成绩)多以嵌套特征存在,学生嵌套在班级中,班级嵌套在学校中,每个类别下的嵌套数据及各类别之间难以保证方差齐性。因此,使用QR 估计SGPs(学生增值)或MGPs(学校层面增值)时容易发生偏差[17]。周园等考虑到学校嵌套数据特征,将线性混合分位数回归模型运用于估计学生成长百分等级,发展出多水平线性分位数回归模型(Multilevel Linear Quantile Model,MLQM)[18]

2.研究问题

综述以往研究发现,我国增值评价研究由原来的引入、介绍逐渐转为实证研究,发展出众多增值评价模型,改进了增值估计技术。尤其在《总体方案》提出探索增值评价后,增值评价研究快速发展。在此背景下,增值评价模型种类繁多、模型间比较研究不足、对模型的选择缺少可借鉴案例等问题也逐渐被人们关注。陈安琪等分别比较了采用标准分法、效应量法、分层回归法及学生成长百分位法计算的增值效应,并指出学生成长百分位法更适用于增值评价[19]

本研究为解决新高考背景下增值评价的应用问题,选用多水平线性回归模型(以下简称模型一)和多水平线性分位数回归模型(以下简称模型二),对新高考数据的增值评价进行比较分析。一方面,两个模型都适用于嵌套数据,能够把学生层面和学校层面的增值进行分离;另一方面,两个模型均可排除影响学生学业发展的不可控因素,极大地提高了模型比较的效度。

一般情况下,模型二基于学生成长百分等级理念,依据拥有相似能力的群体相对位置变化的估计来刻画学生的成长样貌;同时,能够排除影响学生发展的不可控因素,实现相同起点或相同基础学生群体的内部比较,有效地解决高水平群体增值难以准确衡量的问题。模型二需要满足5000以上样本量,对样本正态分布和方差齐性要求不高,适用于不同总分构成的群体总分增值估计。新高考总分组合共12种,在估计总分增值时,需要对12种总分进行一一估计。采用模型一估计则需要12种组合的总分满足正态分布和方差齐性原则,此条件在实际的增值估计中难以满足。模型一容易受到极端值的影响,而且不能进行分类估计,尤其是在方差不齐性条件下,估计偏差更为明显。

3.研究方法

3.1 数据来源

本研究采用的数据来源于某市教育质量综合评价项目。该项目利用中考、高考等学业数据,通过编制高信度和效度的测评工具,测量学生非学业发展状况,并调查影响学生成长相关因素,综合评价区域教育质量。本研究以该市第一次参加新高考的2021届高三年级毕业生为研究对象。为保证前后测群体的一致性,删除中途转学学生和不足20名学生的学校,筛选出既参加了2021年高考,同时3年前也参加了该市中考的学生作为研究样本,最终筛选出84所高中的37416名学生作为研究样本。

3.2 变量选取

本研究的变量选取仅用于模型对比,研究变量有两个:一是学业成绩标准分,以2021届高中毕业生3年前的中考成绩作为基线水平(又称“入口成绩”),以该届学生新高考成绩作为后测成绩 (又称“出口成绩”)。选用总分及全国(全省)统一命题的语文、数学、英语进行分析,并全部转换为以0为均值、以1为标准差的标准分。其中,新高考总分根据该省录取分数划分标准,分为物理类总分和历史类总分。二是人口统计学变量,包括性别(gender)、家庭社会经济地位(socioeco⁃nomicstatus,SES)。其中,家庭社会经济地位包含父母受教育程度、父母职业、家庭财产状况3个维度。采用因子分析法合成家庭社会经济地位指标[20]

3.3 增值评价模型的构建

3.3.1 模型一

第一步:构建零模型。

第一水平:Yij=β0j+rij,来自第一水平的变

异Var(rij)=σ2;

第二水平:β0j=γ00+μ0j,来自第二水平的变

异Var(μ0j)=τ00

其中,Yij表示第j所学校第i个学生的学业成绩。β0j表示第j所学校的截距,可理解为该学校的平均成绩。rij~N(0σ2),rij相互独立。γ00表示所有学校的平均截距,可理解为所有学校的平均成绩,Var(μ0j)=τ00σ2表示学业成绩学生层面的变异,τ00表示学业成绩学校层面的变异。

通过计算跨级相关(Intra-class Correlation,ICC),确定是否需要对群体层面的变异进行计算。ICC是组间变异与总变异的比值,一般地,当ICC>0.05时,代表组间差异存在,需要建立多水平模型进行分析:

ICC=τ00/(τ002)。

第二步:构建完整模型。

第一水平:

Yij=β0j+β1jgenderij+β2jSESij+β3Xij+rij

第二水平:

β0j=γ00+γ01Wj+μ0j

β1j=γ10+γ11Wj+μ1j

β2jγ20=+γ21Wj+μ2j

β3j=γ30+γ31Wj+μ3j

其中,W是第二水平的预测变量,γ00是方程截距项,即Y的平均值;γ01W的斜率,即WY的影响;μ0j是截距的随机项,即第二水平的残差;γ10是gender的斜率,即gender对Y的影响;γ20是SES的斜率,即SES对Y的影响;γ30X的斜率,即XY的影响;γ11、γ21、γ31分别是gender和W、SES和WXWY的交互作用;μ1j、μ2j、μ3j分别是gender、SES、X的斜率随机项,即gender、SES、XY的影响来自第二水平的残差。

3.3.2 模型二

周园等在此基础上提出基于R语言的模型二计算SGPs和MGPs具体为:

第一步:建立零模型。

第一水平:Yij0j+rij

第二水平:β0j=γ000j

其中,Yij表示第j所学校第i个学生的学业成绩。β0j表示第j所学校的截距,可理解为该学校的平均成绩。rij~N(0,σ2)rijj相互独立。γ00表示所有学校的平均截距,可理解为所有学校的平均成绩。Var(μ0j)=τ00σ2表示学业成绩学生层面的变异,τ00表示学业成绩学校层面的变异。

第二步:对影响因素进行分析。

将出口成绩作为因变量,加入性别、家庭社会经济地位两个控制变量,构建模型一(随机截距模型)。

第一水平:

Yij0j1jgenderij2jSESij+rij

第二水平:

β0j0001Wj0j

β1j1011Wj1j

β2j20=γ+γ21Wj2j

其中,W是第二水平的预测变量,γ00是方程截距项,即Y的平均值;γ01W的斜率,即WY的影响;μ0j是截距的随机项,即第二水平的残差;γ10是gender的斜率,即gender对Y的影响;γ20是SES的斜率,即SES对Y的影响;γ11γ21分别是gender和W、SES和WY的交互作用;μ1jμ2j分别是gender、SES的斜率随机项,即gender、SES对Y的影响存在来自第二水平的残差。

第三步:构建模型二。

以出口成绩为因变量,入口成绩为自变量,纳入第二步中对因变量影响显著的控制变量,构建模型二,该模型用于估计SGPs和MGPs。该步骤可利用R软件中lqmm包完成。

第一水平:

Y(τ)ij(τ)0j(τ)1jgenderij(τ)2jSESij(τ)3jXij+r(τ)ij

第二水平:

β(τ)0j(τ)00(τ)01Wj(τ)0j

β(τ)1j(τ)10(τ)11Wj(τ)1j

β(τ)2j20(τ)=γ+γ(τ)21Wj(τ)2j

β(τ)3j(τ)30(τ)31Wj(τ)3j

其中,第一水平加入X(入口成绩)、性别 (Gender)、家庭社会经济地位(SES);τ为指定百分位数。

3.4 数据分析方法

使用MLwin2.0进行模型一的拟合和增值计算,使用R语言中的lqmm包运行模型二,计算学生和学校层面增值,使用SPSS20.0进行数据管理与分析。

4.研究结果

4.1 跨级相关系数及正态分布检验

使用MPLUS7.0计算总分、语文、数学、英语的学校间跨级相关系数。各系数范围在0.258~0.603,均大于0.1,表明不同学校间的学生在总分、语文、数学、英语成绩上存在差异,需要进行多水平模型分析。

对总分、语文、数学、英语进行正态分布检验。本研究样本量大于5000,故选用Kolmogorov-Smirnova检验法进行正态分布检验。结果显示,总分、语文、数学、英语出入口分数的检验值范围在0.027~0.131,p值均小于0.001,可判断总分、语文等出入口分数均为非正态分布。

4.2 模型一估计的学校增值结果

模型一以基线成绩预测再测成绩,通过计算实际再测成绩与预测再测成绩之间的差值,作为增值。如果增值数值显著大于0,即增值估计区间不含0且为正数,则为正向增值,表示实际情况要比预期表现更好;增值数值显著小于0,即增值估计区间不含0且为负数,则为负向增值,表示实际情况要比预期表现更差;增值数智估计区间含0,则为零增值,表示实际情况达到预期表现[10]

表1为控制学生性别、家庭社会经济地位影响因素后,采用模型一对总分、语文、数学、英语估计的学校增值结果。从表1可知,总分、语文、数学、英语的学校增值平均数为0.000。数学学校增值的标准差最大,校间差异相对较大,历史类总分增值的标准差最小,校间差异相对较小。历史类总分正增值学校比例最大,英语正增值学校比例最小,数学负增值学校比例最大,历史、物理类总分负增值学校比例最小。

4.3 模型二估计的学校增值结果

根据周园等提出的模型二估计流程,分析性别和家庭社会经济地位对总分、语文、数学、英语出口成绩的影响结果。结果表明:性别和家庭社会经济地位对总分、语文、数学、英语出口成绩有显著影响,p值均小于0.05。因此须将该两个变量纳入SGPs和MGPs估计模型中加以控制。

模型二可采用SGPs的校均值或中位数来构成MGPs,本研究中根据数据特征采用SGPs的校均值。SGP分数用于学校或社区评估通常以中位数50作为标准,高于50则为超过期望水平,低于50为低于期望水平[14]。本研究将MGPs大于50定义为进步明显。表2为控制学生性别、家庭社会经济地位影响因素后,采用模型二对总分、语文、数学、英语的MGPs估计结果。从表2中可以看到,语文MGPs平均数最大,数学MGPs平均数最小;物理类总分标准差最大,校间差异最大,语文标准差最小,间差异最小;进步明显学校比例最高为历史类总分,比例最低为数学。

4.4 两模型增值估计结果相同之处

4.4.1 两模型总分、语文、数学、英语的学校增值两两间均呈现显著正相关

对两模型估计的总分、语文、数学、英语的学校增值进行相关分析。结果显示:两模型估计的总分、语文、数学、英语的学校增值两两间均呈现显著正相关。在总分与语文、数学、英语之间的相关分析中,英语与历史类总分、物理类总分相关系数最高,相关系数在0.771~0.833;其次是数学与历史类总分、物理类总分,相关系数在0.615~0.755;语文与历史类总分、物理类总分相对较低,相关系数在0.442~0.619。这表明英语、数学与总分增值的关联度较大。两类模型在总分、语文、数学、英语的学校增值之间相关分析结果大体相当。

4.4.2 两模型对低分组学校增值估计一致性高

本研究选用高考历史类总分和物理类总分及其增值来比较两类模型异同。其一,用总分代表学生的整体学业发展状况;其二,在学生总体层面,两类总分的结构仅在历史和物理科目上存在差异,均包含语数外、思想政治、地理、化学、生物科目。为详细了解高考总分内部差异,将84所学校的高考总分按照从高到低排序,取前27%作为高分组,后27%作为低分组,中间部分为中分组。

对历史类总分和物理类总分的两模型增值结果进行相关分析。结果显示,两模型在历史类、物理类总分低分组的学校增值相关系数均在0.990以上,表现出高度一致性。

图1和图2分别为历史类总分和物理类总分的基于模型一的增值评价、模型二的增值评价和基于标准分的结果评价的排序对比曲线。其中方形实线是模型二增值估计值排序,圆点虚线是模型一增值估计值排序,菱形实线是出口成绩的标准分排序,纵坐标为排序值,数值越大排序越靠后。由图可以看到,出口成绩越低,两模型的增值估计值差异越小。

4.4.3 两模型的增值结果与标准分均差异明显

本研究选用新高考成绩(出口成绩的标准分)作为学业结果评价,以考查增值评价与结果评价之间的差异。表3为历史类总分和物理类总分的两模型增值结果与标准分相关分析。由表可知两模型的增值结果与标准分均存在明显差异。表3中历史类总分和物理类总分的标准分与模型二估计的增值估计值相关系数分别为0.221、-0.006,物理类总分的相关系数不显著,相关系数偏低,表明模型二的增值评价与标准分的结果评价差异极为明显;历史类总分和物理类总分的标准分和模型一的增值估计值相关系数分别为0.401、0.534,相关系数均显著,但数值不高,表明模型一的增值评价与标准分的结果评价差异明显。结合图1和图2可知,方形实线代表的模型二增值估计值排序和圆点虚线代表的模型一增值估计值排序,与菱形实线代表的出口成绩的标准分排序均不一致。

4.5 两模型增值估计结果不同之处

4.5.1 两模型对正向进步学校的比例估计差异明显

根据模型一和模型二的增值评定标准,正增值与MGPs大于50(进步明显)均认为超过预期水平,故本研究将模型一估计的正增值学校和模型二估计的进步明显学校统称为正向进步学校。结合表1和表2可知,模型一估计的总分、语文、数学、英语的正增值学校比例分别为36.90%、33.33%、32.14%、34.52%、30.95%,最大值与最小值相差5.95个百分点,总分与三个学科的正增值比例相差不明显,均占学校总数的三分之一左右。模型二估计的总分、语文、数学、英语的进步明显学校比例分别为44.05%、22.62%、35.71%、16.67%、19.05%。最大值与最小值相差27.38个百分点,总分与语文、数学、英语相差明显,语文、数学、英语之间差异较大。很显然,模型一估计的正向进步学校比例相对固定,学科差异不明显,而模型二估计的正向进步学校比例存在明显的学科差异。

4.5.2 两模型对高分组学校增值估计差异较大

对模型一和模型二历史类总分、物理类总分高分组的学校增值进行相关分析,相关系数分别为0.859、0.335。其中,在物理类总分高分组上的相关系数0.335不显著。两模型在高分组上的相关系数相对较低。结合图1和图2可知,菱形实线代表的出口成绩标准分排序数值越小,方形实线代表的模型二增值估计值排序和圆点虚线代表的模型一增值估计值排序之间的差异则越大。尤其是在出口成绩标准分排序靠前的10所学校,模型一和模型二的增值排序差异极为明显。结果表明,两模型在高分组学校增值估计存在明显差异。

5.研究结论

5.1 模型二可以较好地解决增值评价的

“天花板效应”问题

本研究结果显示,两类模型对于中低水平群体的增值估计相当,但对不同学科的高水平群体增值估计则有所不同。从模型估计原理来看,模型一是以所有学生为总体,不对学生进行分群体估计,无法排除“天花板效应”带来的影响。模型二是基于相似能力群体内部的相对位置变化来估计学生成长,相似群体之间相对独立、互不影响,能较好解决增值评价中的“天花板效应”问题。从模型估计前提条件来看,模型一要求样本数据符合正态分布、方差齐性,模型二则样本数据不具备正态分布或方差齐性时也可以进行估计。本研究中数据经过正态分布检验发现均不呈现正态分布。因此,模型一的估计前提不满足,增值估计结果存在偏差,模型二对非正态分布数据也能正常估计,增值结果属于无偏估计。对比发现,模型二相对于模型一更适合高水平群体增值估计。

5.2 模型二比模型一更能刻画出

不同学科上的学校增值特征

本研究结果显示,在控制性别与家庭社会经济地位影响因素后,使用模型一估计出来的总分、语文、数学、英语的正向进步学校比例相当,不能够完全体现学科之间的差异,与学科发展实际不相符合。模型二在不同学科正向进步划定差异较大,历史类总分与语文的正向进步学校比例较高,物理类总分、数学与英语比例则相对较低。可见,模型二比模型一在增值评价的估计中更能刻画出不同学科上的学校增值特征。

综上所述,通过本研究实际数据分析得出,多水平线性分位数回归模型比多水平线性回归模型更适合进行新高考的增值评价。

6.后续研究建议

增值评价可以破解以往采用一次性考试成绩评判学生发展状况的困局,由原来只关注结果,到重点关注受评对象在原有基础上的进步,引领不同类型学校在原来水平上得到整体提升,彰显了教育评价的科学性、公平性和发展性。今后开展学习增值评价时,应注意4个方面事项:首先,开展增值评价应选择适切的增值估计方法。充分衡量各增值估计方法的优劣,结合数据特征、使用目的、操作便捷、便于理解等要求选择合适的方法进行增值评价。其次,平衡增值评价与结果评价的关系。研究发现增值评价和结果评价存在较大差异,结果评价较好的学校,增值评价表现并不一定好。因此,在实际评价实践过程中,应把结果评价和增值评价相结合,有效诊断发展问题,深入指导学校教育教学改革。第三,拓展增值评价应用范畴,开展非学业增值评价。只有将学生学业成就、学业进步、非学业表现、非学业潜能相结合进行评价,才能观照学生的发展全貌。第四,高考历史类和物理类选科需关注学校的两类选科增值差异。本研究发现,两种模型在正向进步划分上,历史类总分正向进步学校比例均高于物理类总分。

本研究未能对高考12种学科组合逐一进行增值估计,也未分析不同学科难度和区分度对增值估计影响。后续研究可从高考学科组合增值差异及考试难度、区分度对增值估计的影响等方面进行深入探究,进一步关注回归方程系列的增值评价模型在跨学科、跨年份、跨群体等方面的元分析,提供更加精确的模型对比结果,为增值评价应用提供参考。

参考文献:


作者:章 勇,男,长沙市教育科学研究院副院长,高级教师;邹 良,女,长沙市教育科学研究院教育质量监测与评估中心主任,高级教师;刘先发,男,长沙市教育科学研究院教育质量监测与评估中心教研员
来源:原文刊载于《中国考试》2023年第9期第60-69页

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
关于普通高中选科后成绩评价等值问题及思考
用Excel实现成绩动态统计
教学测量与评估方法
标准分评价浅说(中)
利用EXCEL创建学生成绩动态统计表
深度解读丨深圳中考拟重大调整:原始分增至680分,这些科目将更重要!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服