计算机自适应测验

CAT与传统纸笔测验的很大差别在于：在CAT中，不同的被试做不同的题目；而在纸笔测验中，所有的被试做同样的题目。在CAT施测过程中，计算机程序会根据被试当前的作答表现，不断在题库中选择与被试水平相匹配的试题进行测试。换句话说，对于不同被试的

水平，测验会被调整，使得高水平被试避免做过多简单的题目，而低水平的被试避免做太多过难的题目。因此，CAT不仅可以做到因才施测精确估计被试能力，而且可以节省许多施测时间和成本。

简史

适应性测验的应用，最早开始于1908年法国心理学家A.比奈关于智力测验的研究。他抽取不同年龄组的儿童进行试验性测试，从而找到代表各年龄组水平的典型性项目。这些项目按年龄水平高低加以排列后，不同被试从哪一处开始接受测验，施测过程中作答的对错有了结果后再继续选择什么水平项目施测，以及测验要到什么状况予以结束，都要取决于被试的实际表现和水平，不同对象不同对待。韦氏智力测验也采用了适应性测验的思想。韦氏智力测验施测时，首先选择一个较易的题目让被试作答，然后选择一个稍难一点的题目让被试作答，如果被试无法作答，则选择一个更容易的题目测试；如果连续几个题目都无法作答，则中止该部分内容的测试，以被试已经作答的最难题目作为其水平衡量标准；如果被试正确作答，则选择一个更难的题目继续测试。这种测试形式最初被称为量身定制式测试。

真正的CAT施测必须借助计算机。最早的CAT大规模应用是计算机版本的武装部队职业能力倾向测验（ASVAB）。纸笔测验版本的ASVAB测试要花3小时，而CAT版本的只要90分钟。通过CAT测验，被试的分数可以快速与各个职位所需的能力条件相匹配。在美国，CAT已成为流行的评估方法，除ASVAB之外的内容，大规模CAT测验还包括研究生入学考试（GRE）、管理类研究生入学考试（GMAT）等。

施测过程

大体分为两个阶段。①试验性探查阶段。也就是估计被试起始能力值的阶段。测验开始时，一般没有被试真实水平的有关信息，因此应设置一批题目，初步估计其水平。一般做法是，从题库中随机调取一组（3～5题不等）难度水平中等的试题施测，等被试作答后，计算机根据这些作答反应资料，估计出被试的初始能力的估计值（

）。②精确估计真值阶段。在这一阶段，计算机根据被试的初始能力估计值，从现有题库中，挑选出一题最能对能力水平估计发挥最大贡献力量的试题，再将这道试题给被试作答；等被试再作出反应之后，计算机估计该被试的能力估计值，并从题库中再挑选下一个适合的试题给该被试作答；这种选题、作答、估计能力、再选题、再作答、再估计能力的施测过程，会一直持续下去，直到事先预定的施测题数测完，或者能力估计达到了预定的测量精确性为止。

测验编制过程

CAT的编制除要遵循一般测验的编制原则外，也有特殊之处，其过程一般包含5个步骤：①反应模型选择。CAT的编制与实施都建立在IRT基础上，因此，测验编制的首要问题是反应模型的选择。可供选择的模型主要适用于0、1计分资料的拉希模型，逻辑斯谛双参数和三参数模型，以及适用于多级计分资料的等级计分模型、分部评分模型和多维度模型等。②题库建设。大容量、高质量、参数表达在共同量尺上的题库，是进行CAT的核心基础。若没有一个符合要求的题库，则无法进行CAT。题库建设中有两个突出的技术问题，就是项目参数估计和等值，也就是每个题目除了要有内容等维度的标识外，还必须有难度、区分度等测量学的指标，并且各题的测量学指标是在同一量尺上，是可以比较的。③施测程序编制。编制CAT施测程序，首先要解决的问题是被试特质水平的估计方法问题。也就是CAT施测时，计算机必须在测试完每道题目之后即时估计被试当前的特质水平，作为从题库中挑选下一道测试题的依据。主要运用的被试特质水平估计方法有条件最大似然估计（MLE）、加权最大似然估计（WMLE）、贝叶斯期望估计（EAP）、最大后验估计（MAP）等。由于在CAT中估计被试特质水平时，题目参数是已经标定好且储存在题库中，所以对特质水平的估计相对较易。编制CAT施测程序时，还包括起点确定、选题算法和终止规则3个需要解决的关键问题。其中，选题算法是CAT最重要的部分，是量身定制式测试的根本保证。终止规则主要有两种方法：一是固定测验长度，当施测项目数累加到预设值时（如30个项目）即停止。这种规则有利于社会公众接受，但预设的长度不易于使所有被试水平都得到恰当精度的估计，或者使一些被试在恰当估计出水平后还要额外增加作答，所以并不理想。二是按预设估计标准误要求终止测验。这种方法能克服方法一的缺点，但是估计标准误要求过严时，测验可能会过长。④结果报告。CAT结果所得的被试特质水平的估计值，常采用标准分数（Z分数）的形式，这是需要向被试提供报告的内容。由于Z分数存在负数和小数，为了易被大众接受，可按公式进行转换：

。式中

是转换后的被试特质水平的估计值；

是被试特质水平的估计值。⑤评价检验。跟所有测验的编制一样，CAT的评价检验也很重要，也需要评价测验的效度、信度。CAT的效度，仍应从内容效度、构想效度、效标关联效度等方面进行深入考察。CAT的信度，可直接使用估计标准误，或者说测验信息函数来考察。

需要解决的问题

①题目的曝光率与题库的安全性问题。题目曝光率（题目的使用频率）指题目施测的次数与应试者的总数量的比例。控制题目曝光率是保证题库案例的重要手段之一。由于CAT会在一定的时间间隔内对不同的被试施测，做过测验的应试者可能会把信息分享给将要应试的人，这会使题目被曝光的风险加大。因此必须控制项目曝光率。题库的大小与题库安全也密切相关。高风险的CAT必须有很大的题库。如果题库非常大，对很多项目进行过练习的被试能获得的优势相对较小；如果题库很小，那么优势会很大。在开发CAT时，构建一个较大的题库是很有必要的，通过使用从未选择的项目也能在一定程度上解决这个问题。因此，使题库更大以及均匀地选择题库中的项目都能加强测验安全。②CAT和纸笔测验结果的互换性问题，以及题目泄题问题。在CAT实际应用中发现，有一些应试者在CAT测试中的成绩比纸笔测验的成绩低很多。2000年，教育考试服务中心（ETS）发现，GRE的CAT系统不能为几千人互换分数，ETS只有让他们免费重考。另一个重要的问题是，测试安全和大规模测验项目被盗用问题。2002年8月，在中国大陆、香港、台湾以及韩国，ETS暂停GRE的CAT测验，并且再次使用纸笔测验，因为经过调查，在许多网站发现GRE的CAT现场测验版本。③测试的内容效度问题。IRT本来是一个完备空间，但在实际中却并不能解决人们的疑问：如果所测试题内容分布有偏，结果是否可信。为解决这一问题，也可以在选用试题时同时配上内容分布原则。当然如果两个选题原则同时符合，则所选试题的信息量在同内容范围内是最大的，因此，会增加测试题量。

扩展阅读

漆书青，戴海琦，丁树良．现代教育与心理测量学原理．北京：高等教育出版社，2002．

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。