打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
计算机自适应测验

CAT与传统纸笔测验的很大差别在于:在CAT中,不同的被试做不同的题目;而在纸笔测验中,所有的被试做同样的题目。在CAT施测过程中,计算机程序会根据被试当前的作答表现,不断在题库中选择与被试水平相匹配的试题进行测试。换句话说,对于不同被试的

水平,测验会被调整,使得高水平被试避免做过多简单的题目,而低水平的被试避免做太多过难的题目。因此,CAT不仅可以做到因才施测精确估计被试能力,而且可以节省许多施测时间和成本。

简史

适应性测验的应用,最早开始于1908年法国心理学家A.比奈关于智力测验的研究。他抽取不同年龄组的儿童进行试验性测试,从而找到代表各年龄组水平的典型性项目。这些项目按年龄水平高低加以排列后,不同被试从哪一处开始接受测验,施测过程中作答的对错有了结果后再继续选择什么水平项目施测,以及测验要到什么状况予以结束,都要取决于被试的实际表现和水平,不同对象不同对待。韦氏智力测验也采用了适应性测验的思想。韦氏智力测验施测时,首先选择一个较易的题目让被试作答,然后选择一个稍难一点的题目让被试作答,如果被试无法作答,则选择一个更容易的题目测试;如果连续几个题目都无法作答,则中止该部分内容的测试,以被试已经作答的最难题目作为其水平衡量标准;如果被试正确作答,则选择一个更难的题目继续测试。这种测试形式最初被称为量身定制式测试。

真正的CAT施测必须借助计算机。最早的CAT大规模应用是计算机版本的武装部队职业能力倾向测验(ASVAB)。纸笔测验版本的ASVAB测试要花3小时,而CAT版本的只要90分钟。通过CAT测验,被试的分数可以快速与各个职位所需的能力条件相匹配。在美国,CAT已成为流行的评估方法,除ASVAB之外的内容,大规模CAT测验还包括研究生入学考试(GRE)、管理类研究生入学考试(GMAT)等。 

施测过程

大体分为两个阶段。①试验性探查阶段。也就是估计被试起始能力值的阶段。测验开始时,一般没有被试真实水平的有关信息,因此应设置一批题目,初步估计其水平。一般做法是,从题库中随机调取一组(3~5题不等)难度水平中等的试题施测,等被试作答后,计算机根据这些作答反应资料,估计出被试的初始能力的估计值(

)。②精确估计真值阶段。在这一阶段,计算机根据被试的初始能力估计值,从现有题库中,挑选出一题最能对能力水平估计发挥最大贡献力量的试题,再将这道试题给被试作答;等被试再作出反应之后,计算机估计该被试的能力估计值,并从题库中再挑选下一个适合的试题给该被试作答;这种选题、作答、估计能力、再选题、再作答、再估计能力的施测过程,会一直持续下去,直到事先预定的施测题数测完,或者能力估计达到了预定的测量精确性为止。

测验编制过程

CAT的编制除要遵循一般测验的编制原则外,也有特殊之处,其过程一般包含5个步骤:①反应模型选择。CAT的编制与实施都建立在IRT基础上,因此,测验编制的首要问题是反应模型的选择。可供选择的模型主要适用于0、1计分资料的拉希模型,逻辑斯谛双参数和三参数模型,以及适用于多级计分资料的等级计分模型、分部评分模型和多维度模型等。②题库建设。大容量、高质量、参数表达在共同量尺上的题库,是进行CAT的核心基础。若没有一个符合要求的题库,则无法进行CAT。题库建设中有两个突出的技术问题,就是项目参数估计和等值,也就是每个题目除了要有内容等维度的标识外,还必须有难度、区分度等测量学的指标,并且各题的测量学指标是在同一量尺上,是可以比较的。③施测程序编制。编制CAT施测程序,首先要解决的问题是被试特质水平的估计方法问题。也就是CAT施测时,计算机必须在测试完每道题目之后即时估计被试当前的特质水平,作为从题库中挑选下一道测试题的依据。主要运用的被试特质水平估计方法有条件最大似然估计(MLE)、加权最大似然估计(WMLE)、贝叶斯期望估计(EAP)、最大后验估计(MAP)等。由于在CAT中估计被试特质水平时,题目参数是已经标定好且储存在题库中,所以对特质水平的估计相对较易。编制CAT施测程序时,还包括起点确定、选题算法和终止规则3个需要解决的关键问题。其中,选题算法是CAT最重要的部分,是量身定制式测试的根本保证。终止规则主要有两种方法:一是固定测验长度,当施测项目数累加到预设值时(如30个项目)即停止。这种规则有利于社会公众接受,但预设的长度不易于使所有被试水平都得到恰当精度的估计,或者使一些被试在恰当估计出水平后还要额外增加作答,所以并不理想。二是按预设估计标准误要求终止测验。这种方法能克服方法一的缺点,但是估计标准误要求过严时,测验可能会过长。④结果报告。CAT结果所得的被试特质水平的估计值,常采用标准分数(Z分数)的形式,这是需要向被试提供报告的内容。由于Z分数存在负数和小数,为了易被大众接受,可按公式进行转换:

。式中
是转换后的被试特质水平的估计值;
是被试特质水平的估计值⑤评价检验。跟所有测验的编制一样,CAT的评价检验也很重要,也需要评价测验的效度信度。CAT的效度,仍应从内容效度、构想效度、效标关联效度等方面进行深入考察。CAT的信度,可直接使用估计标准误,或者说测验信息函数来考察。

需要解决的问题

①题目的曝光率与题库的安全性问题。题目曝光率(题目的使用频率)指题目施测的次数与应试者的总数量的比例。控制题目曝光率是保证题库案例的重要手段之一。由于CAT会在一定的时间间隔内对不同的被试施测,做过测验的应试者可能会把信息分享给将要应试的人,这会使题目被曝光的风险加大。因此必须控制项目曝光率。题库的大小与题库安全也密切相关。高风险的CAT必须有很大的题库。如果题库非常大,对很多项目进行过练习的被试能获得的优势相对较小;如果题库很小,那么优势会很大。在开发CAT时,构建一个较大的题库是很有必要的,通过使用从未选择的项目也能在一定程度上解决这个问题。因此,使题库更大以及均匀地选择题库中的项目都能加强测验安全。②CAT和纸笔测验结果的互换性问题,以及题目泄题问题。在CAT实际应用中发现,有一些应试者在CAT测试中的成绩比纸笔测验的成绩低很多。2000年,教育考试服务中心(ETS)发现,GRE的CAT系统不能为几千人互换分数,ETS只有让他们免费重考。另一个重要的问题是,测试安全和大规模测验项目被盗用问题。2002年8月,在中国大陆、香港、台湾以及韩国,ETS暂停GRE的CAT测验,并且再次使用纸笔测验,因为经过调查,在许多网站发现GRE的CAT现场测验版本。③测试的内容效度问题。IRT本来是一个完备空间,但在实际中却并不能解决人们的疑问:如果所测试题内容分布有偏,结果是否可信。为解决这一问题,也可以在选用试题时同时配上内容分布原则。当然如果两个选题原则同时符合,则所选试题的信息量在同内容范围内是最大的,因此,会增加测试题量。

扩展阅读

  • 漆书青,戴海琦,丁树良.现代教育与心理测量学原理.北京:高等教育出版社,2002.
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
计算机自适应测试方法在英语专业语法教学中的应用探索
教学评价技能
如何对纸笔考试测试结果做质量分析——对纸笔考试测验卷分析的介绍
学业成就传统评价的特点及种类(余林 主编)
美军心理测验的未来
试题的命题设计、编制和要求
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服