打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
关于上海市高中英语学业水平测试设计的几点思考
关于上海市高中英语学业水平测试设计的几点思考
【专题名称】中学外语教与学
【专 题 号】G381
【复印期号】2008年07期
【原文出处】《中小学英语教学与研究》(沪)2008年1期第55~59,67页
【作者简介】徐强 上海外国语大学


    最近上海市政府印发了《上海教育事业发展“十一五”规划纲要》(以下简称《纲要》)。《纲要》中关于“高中学生参加上海市高中学业水平测试”的政策措施引起了媒体和有关教师、学生以及家长的广泛关注。《纲要》明确要求“改革考试内容和方法,强化对考生的知识面、思考判断、创新思维、分析综合等能力的考查”。这些要求值得我们从事考试研究、设计和命题的人员认真领会并付诸实践。高中学业水平测试到底怎么搞?是否像以前的“高中会考”那样,内容和形式都没有实质性的变化,仅仅是降低难度而已?如果是降低难度的话,是否会像目前的初中学业水平考试那样,把难度比例设定为1:8:1(即10%的题目较难,80%的题目难度一般,10%的题目较容易)?
    笔者以为,在讨论学业水平测试时有必要首先明确涉及考试的三对基本关系。限于专业,本文仅以英语考试为例。
    一、学业水平考试与选拔考试
    论述英语考试的专著和英语版的《语言测试词典》中有关学业水平考试(achievement/attainment test)的定义基本上是一致的,即:学业水平考试通常是正规的考试,在学年末或课程结束时举行,一般由外部专门的考试机构命题。学业水平考试衡量考生是否掌握了教学大纲规定的内容。考试内容必须覆盖或选择教学大纲限定的内容范围。学业水平考试的目的在于了解学生是否达到了教学大纲规定的能力要求,以便于决定学生具体的能力等级,例如通过或不通过,是否发给毕业证书等等(Heaton, 1988; Davies等,1999)。由此可见,学业水平考试的核心是衡量教学大纲限定的内容范围,是学生已经学过的东西。
    相比而言,选拔考试(selection/entrance/gatekeeping test)用于比较考生的语言能力或者语言行为,通过考试选出最佳对象。考试的目的不在于了解考生过去学得如何,而在于确定考生是否符合进一步学习的条件或者是否适合某项工作。一般情况下,由于选拔考试着眼于未来,故考试内容就不一定以考生以前学习时的教学大纲或教材内容为依据。举例说明,这就像选拔参加跳高比赛的运动员一样。选拔赛可以不顾运动员以前的训练教材、训练方法、训练计划等等,目的只是确定参选人员是否达到规定的高度,或者是否比别人跳得高。
    上海的高考在《上海卷考试手册》中明确定性为“是为高校招生而进行的选拔考试”。考试的性质决定了高考的功能首先是比较考生之间的成绩,选出最适合的考生去不同层次的高校。尽管《考试手册》在“编写说明”中提到:《考试手册》的制定是依据《课程标准》的,但这里需要解释《考试手册》和《课程标准》之间的关系。中小学英语教师一般都知道《课程标准》列出了学生需要学习的英语词汇,《高考英语词汇手册》也列出了可以测试的词汇;《课程标准》列有应该学习的语法项目,《考试手册》也划定了可以测试的语法项目范围。两者有共同之处,也有差异之处。问题在于:1)为什么要有两份不同的词汇表和语法项目表?2)高中英语的教与学到底以哪一份为依据?
    事实上,由于高考的指挥棒作用,《考试手册》和《高考英语词汇手册》在教学中更加受到重视,而《课程标准》则被搁在一边。
    笔者曾经阅读过英国中小学的外语教学课程标准(Modern Foreign Languages in National Curriculum)和剑桥大学考试委员会制定的相应的考试大纲。英国的课程标准详细列出了学生应该学会和能够使用的各种语言技能,包括听、说、读、写四个方面,10个级别的技能描述层次分明。考试大纲则一目了然地使人明白考试形式、题目类型、时间安排等等,没有画蛇添足的词汇表和语法项目表。课程标准和考试大纲两者各司其职。上海市的高中学业水平测试应该完全以《课程标准》为依据。如果《课程标准》有不够完善的地方,首先应该做的是修改《课程标准》。这是因为性质决定内容。既然定性为学业水平测试,就不应该超越《课程标准》限定的内容范围。因此,我们应该在分析和吸收国内外经验的基础上,根据《课程标准》限定的内容范围编写学业水平测试大纲或考试手册。
    二、标准参照与常模参照
    1.标准参照性考试
    学业水平考试属于标准参照性考试(Criterionreferenced test)。标准参照性考试不将考生之间的成绩作比较,而是将考生的行为与预先设定的能力、目标或者技能标准作比较,从而确定考生的表现是否达到标准。因此,标准参照性考试的关键步骤是制定考试的内容范围和细则,即制定要求考生达到的、详细的、具体的标准。内容细则主要有三种作用:
    1)给命题者编写试题提供内容准则和技术指标;
    2)给审题者审核试卷所覆盖的内容范围和测试目标提供明白无误的内容说明;
    3)给用人单位详细提供考生所拥有的具体能力或技能的内容和范围。
    现行的《上海卷考试大纲》在英语部分对于考试目标的描述过于笼统,很难想象稍作修改即能应用于学业水平测试。以听力测试为例,高考英语上海卷的具体目标为:1)能获取重要的事实信息;2)能理解话语中隐含的意思;3)能归纳话语的主旨大意。如果我们比较一下国内其它英语考试大纲,如“大学英语4级考试”或者非英语专业最高级别的考试“全国英语等级考试第5级”,我们都能找到类似的表述。例如,“大学英语4级考试大纲”中有“听懂重要的或特定的细节”(类似高考第1条)和“推论隐含的意义”(类似高考第2条)。又如,“全国英语等级考试第5级考试大纲”中有“理解主旨要义”(类同高考第3条),“获取事实性的具体信息”(类同高考第1条),“理解明确或隐含表达的概念性含义”(类同高考第2条)。也就是说,上海市高考英语听力测试的目标与全国性的大学英语听力测试目标,甚至与研究生毕业后为了考取国家公派出国资格的英语听力测试目标是差不多的。
    也许正是由于高考英语卷考试目标的描述过于笼统,与其他等级考试的测试目标难以区分,高考英语考试内容选择和确定的随意性就可能比较大。事实上,将“大学英语4级考试”的材料应用于高考英语卷也是完全可能的。如果考试目标的描述过于笼统,命题教师在命题时对试卷难度的把握就只能全凭经验了。
    上海的学业水平测试,无论初中还是高中,都应该有非常具体的、可操作的考试目标。现行高考英语上海卷听力部分的第1个测试目标“能获取重要的事实信息”无法回答以下问题:即一个通过考试的人是否能够
    1)在听任何内容的情况下都能获取重要的事实信息;
    2)在听任何文体的情况下都能获取重要的事实信息;
    3)在听任何方式表达的内容的情况下都能获取重要的事实信息;
    4)在听任何长度内容的情况下都能获取重要的事实信息;
    5)在听任何语速传递的内容情况下都能获取重要的事实信息;
    6)在应答任何题型的情况下都能获取重要的事实信息;
    7)在听一遍的情况下都能获取重要的事实信息等等。
    学过外语的人都知道,听力的难度至少取决于上述这些因素:内容、表达内容的文体、表达内容的方式(独白或对话)、内容的长度、表达的语速等。对考试而言,还有题型(选择题还是书面或口头回答题)和听的次数等问题。学业水平测试作为标准参照性考试,在制定各项能力标准时必须把这些方面和要求表述得非常准确。只有这样,我们才能对通过考试的学生以及他们未来的用人单位负责地说明该考生到底具备哪些能力。比照上述因素和要求,我们能否把第1条目标写成“在听2遍的情况下,能够听懂语速为每分钟100个单词(误差5个单词)、每段内容不超过20个单词的新闻摘要,并且能以不超过3个字的量记下问题所要求的要点或数据”。这样,内容(新闻)、文体(摘要属于描述性)、方式(独白)、长度(不超过20个字)、语速(每分钟100个字)、题型(书面回答,不超过3个字)、次数(两遍)都包括在内。标准参照性考试的关键步骤是制定考试的内容范围和细则。内容范围和细则的制定是一项专业性和科学性非常强的工作,需要一定的人力和大量的时间,不是开几次会就可以草率决定的。
    2.常模参照性考试
    与标准参照性考试不同,常模参照性考试用于将某一个学生的行为(通常用分数表示)与参加同一次考试或者同一种类型考试的其他学生的行为作比较。在小规模考试中,常模指同一组学生的平均分数;在大规模的标准化考试中,常模代表不同地区、不同时间参加同一种类型考试(不一定是同一份试卷)的学生的平均水平。由于考生人数多,他们的成绩往往呈正态分布,一般用钟型曲线表示。因此,常模在本质上是偶然的和中性的指数。选拔考试属于常模参照性考试。上海的高考尽管没有建立固定的常模,但是每年在命题时都要求命题教师考虑让考生达到一定的平均分,这一平均分就是上海高考的常模。
    标准参照性考试和常模参照性考试之间存在诸多不同。首先,两者测试目的不同。标准参照性考试将考生的水平与事先规定的标准作比较,以描述考生的行为,决定考生是否达到标准,或者评估教育和训练计划的成败。而常模参照性考试的目的是将考生与考生作比较,以区分每个考生的高低和好坏。其次,内容细则有差异。这是指在程度上,标准参照性考试比常模参照性考试的内容细则更详细、更明确,可以用于解释考试分数。再者,取题标准不一样。标准参照性考试的试题舍取以是否违背内容细则和命题标准为原则。试题统计仅用于比较两份平行的标准参照性试卷(Berk, 1984)。相反,常模参照性考试的选题标准往往取于试题的统计数据。一般而言,难度值在0.3至0.7之间、区分度值高于0.3的试题都被认为是好题。最后,对考试分数的解释不一样。常模参照性考试对考生不作推论,解释考分的基础是某些参照群体的行为。相反,标准参照性考试对考生解答特定试题的表现不感兴趣,感兴趣的是将考生考试时的行为扩展到更广泛的能力范围(Hambleton, 1988:279)。
    标准参照性考试的优点,正如休斯(Hughes, 1989:18)所指出的那样:一是根据人们所能做到的,制订有意义的标准,而且标准并不因人而异;二是能激励学生争取达到这些标准。由于标准是根据能力或者按照能力所要求的教育目标、培训目标和行为目标制定的,那么达到这些标准,就意味着具有所要求的能力和技能。从某种意义上讲,要求学生达到标准犹如要求申请驾驶执照的人练习绕8字一样,即练习得越熟练就越有可能通过考试。广而言之,标准参照性考试也许能在很大程度上避免学校和教师搞“题海战术”,避免教学与考试脱节的现象,因为标准参照性考试目标明确,能使学生牢记标准、瞄准目标、刻苦学习、勤于练习、弥补不足、力求达标。
    三、效度与信度
    1.效度
    效度是一种科学探索,效度研究的内容和范围随着人类认识的发展而变化。现在,国外考试研究人员正在把效度研究的重点更多地放在构想效度、内容效度和预测效度上。一些测试界的理论权威人士甚至认为,尽管效度分析可以从这三个方面考虑,但是效度研究归根结底是构想效度的研究。例如,克龙巴赫(Cronbach, 1984:126)写道,“效度研究的最终目标是解释和理解。因此,[心理测量界]正趋向于赞同如下的观点:即所有的效度研究都是构想效度研究”(原文着重号)。梅西克(Messiek,1989:17)在他那篇权威性的论文“效度”中写道:“构想效度也包括内容的关联和代表性以及标准关联性,因为关于内容关联范围的信息和关于考试分数预测的具体的标准行为信息,都清楚地用于考试分数的解释。”巴克曼和帕尔默(Bachman & Palmer,1996)在论述效度时也特别强调构想效度的重要性。
    语言测试说到底是为了推测个人的语言能力。推测的依据是考试的分数。构想效度就是关于考试分数的解释和考试分数的意义。当我们用考试分数去推测个人的语言能力时,我们必须解释分数到底说明了什么,即我们必须说明考试分数在多大程度上反映了我们所测量的语言能力。而在解释分数与语言能力的关系之前,我们首先必须说明我们所理解的语言能力是什么,即我们的语言能力构想——我们所认为的语言能力包括哪些内容、由哪些部分组成以及它们之间的相互关系等等。由此可见,构想效度是设计语言考试时首先要考虑的问题。传统的语言观把语言能力局限在语法能力方面(即语音、词汇和句法知识)。但是,随着社会的发展、科学技术的进步,人们对语言的认识也更加全面和深刻。当前国际语言教学界和测试界在汲取了社会语言学、心理语言学和第二语言习得理论新的研究成果的基础上,把语言能力扩展为包括语法能力、语篇能力、功能能力和社会语言能力在内的四个方面。
    因此,在设计上海市高中英语学业水平测试时,我们必须对语言构想有一个清晰的认识和明确的说明。回顾上海英语高考的发展历史,尤其是进入21世纪以来对试卷结构的逐步改良,我们可以看到,我们对构想效度的认识正在逐步提高,但是仍有改进之处。这可以从以下三个方面判断:
    1)纠正错误理解。高考英语上海卷曾经有个部分叫做“单句理解”,每次少则6题,多则10题,考了11年。这个部分到底考什么?是考语法能力还是考交际能力?当年也许“交际能力”是个时髦的词,也许我们的一些考试设计人员和命题人员不那么熟悉语言能力或者交际语言能力的构成内容,他们往往误用“交际能力”这个词的概念。如下面一题“单句理解”:
    He is a most important person.
    A. He is the most important person.
    B. He is a very important person.
    C. He is more important than anybody else.
    D. He is more or less important.
    明明考查的是most前用不定冠词与用定冠词的意思区别,属于语法范围,却被称之为考“交际能力”。当然,我们现在对交际能力的认识已经提高了,再也不会这么说了。
    2)克服以偏概全。我国的英语考试多年来一直偏重于测试语法能力,高考也不例外。众所周知,文章和书信可以用于表达个人的感情和观点,用于寻求信息或者提供信息,是交际的工具之一。通过让学生写文章或写信的形式来表达自己的交际目的,可以衡量学生的语言使用能力。但是,当考试的设计者把写作部分的绝大部分分值用于衡量学生的“语法、措词、单词拼写、标点符号、大小写等错误”时,测试写作的目的已经不是要衡量考生的语言交际能力,因为75%的作文考试成绩毫无疑问反映的是考生的语法能力(参阅1993和1994年高考上海卷英语写作评分标准)。既然大部分成绩反映的是语法能力,试题设计者在解释考试分数时,就不应该把这部分的考试称之为考“交际能力”。也就是说,即使某个考生在高考上海卷的英语作文中得了满分,我们仍然不能说这个考生具有交际能力,因为他的分数不反映交际能力。现在用了10多年的写作评分标准终于被替换了。这说明我们不再以偏概全,把语法能力当作语言能力的全部。
    3)减少分离式测试。分离测试(discrete point test)流行于上世纪70年代以前,它依据结构主义语言学理论,将语言中的语音、词汇、语法尽可能分解成最小的组成元素,然后分别加以测试。然而,这种测试方法自从70年代中期以来已经逐渐被抛弃,英美主要考试机构均已不再采用,因为其效度受到测试界的广泛质疑(Spolsky, 1995; Davies等,1999)。高考英语上海卷多年来一直采用分离测试的方法,测试语音、词汇和语法(如“单词辨音”和“语法词汇多项选择”),而且整卷题目数量在90年代一直保持在30道题。其实,国外的考试研究人员。早在70年代后期就已经指出:把语言分割成构成要素后,语言的本质就没有了,因为语言是个完整的体系,其构成要素是相互作用的,因此,“总体要大于构成要素的总和”(Oller,1979:212)。这也就是说,如果用分离测试的方法来测试语音、词汇和语法,我们就没有抓住语言测试的本质。即使我们把一个人的语音、词汇和语法测试分数加起来,我们也不能说明这个人的语言能力总和。高考英语上海卷近几年减少了分离测试的题目数量,这在一定程度上提高了效度。
    2.信度
    相比较而言,信度就是同一个人在不同考试条件下(如不同的地点、不同的阅卷教师等)参加同一项考试后所得到的分数是一致的。例如,同一个高中生在市中心或在崇明岛参加高考,得到的成绩应该是一样的。信度也指同一个考生做两份测试同样能力、同样难度的试卷后得到的分数是一致的。例如,一个考生无论做A卷还是做B卷,其成绩应该是一样的。信度在人工阅卷和口试评分方面的要求是,对同一个考生无论谁评分,其结果都必须一致。例如,对同一份作文卷,根据同样的评分标准,张老师打15分,李老师也打15分。由此可见,信度的要求是:
    1)考试条件要相同;
    2)替换使用的试卷或者同一项考试按不同顺序使用的试卷,在内容和难度方面要等值;
    3)主观题的阅卷评分要一致。
    然而,在具体的考试实践中,我们很难实现上述情况的完全一致。事实上,一个人即使在同一段考试时间内重复做同一份英语试卷(难度等于或者略高于他的语言能力),他的答题结果也可能会有误差,即两份试卷的成绩可能会略有不同。这有可能是他粗心的结果,也有可能是他猜题的结果。又如,看体操比赛、跳水比赛、拳击比赛时,我们经常可以看到,即使在世界最高级别的比赛中,裁判(无论是9个还是3个)的打分也不完全一致。这两个例子说明,百分之一百的信度只是个理论概念,在现实生活中,在考试实践中,我们只能尽自己最大努力,减少测量误差,力求达到信度的最大值。
    上海的英语高考在提高信度、减少测量误差方面作出了很大努力,人们对此普遍感到满意,但是在提高效度方面仍然有许多工作可做。因此,作为一种参照,当我们在设计高中英语学业水平测试时,我们应该清楚地看到高考英语卷在效度方面的不足之处,从而在设计之初就加以纠正。例如,我们是否仍然会因为口试的评分可能有误差,而像高考那样将口试成绩长期排除在总分之外?又如,我们是否仍然会因为主观题的阅卷有微小的误差,而偏重选择题,从而减少对语言运用能力的测试?再如,我们是否仍然会因为偏爱对语法和词汇的分离测试,而忽略对新题型的研究和采纳?最后,我们是否仍然会照搬高考英语卷的模式,而不去研究一下,将听、说、读、写四种技能有机地结合起来,按照英语在现实生活中的实际使用情况加以测试?上述这些问题,归根结底是如何体现测试语言的综合运用能力的问题。
    《课程标准》重点提出,“要特别重视对学生英语综合运用能力的评价”。评估语言的综合运用能力或者语言的交际能力是当今语言测试界的主流,其实质是衡量学生学了语言之后是否会在具体语境中恰当地使用语言。因此,上海市高中英语学业水平测试的设计应该突出的是:评估综合的运用英语的能力。这儿的关键词是“综合的”不是“分离的”,是“运用”不是“辨认”。我们应该认识到,当我们的考试性质不再是选拔考试的时候,当我们的考试不再需要一分一分地去区分考生高低的时候,我们的研究重点应该从如何考学生转向考什么内容更合适,转向更有助于学生的学习这方面。我们也许应该花更多的时间来研究:如何通过考试使学生有成就感而不是挫折感,促使学生喜欢学英语而不是害怕学英语,使学生感到参加考试是上了一堂收获很大的课而不是上决定命运的战场。如果我们的学业水平测试设计得好,这一切将成为可能。



【参考文献】
    [1] Bachman, L. & Palmer, A. (1996) Language Testing in Practice. Oxford University Press.
    [2] Berk, R. (Ed.) (1984) A Guide to Criterion-Referented Test Construction. Baltimore and London:The Johns and Hopkins University Press.
    [3] Cronbaeh, L. (1984) Essentials of Psycho-logical Testing. New York: Harper and Row.
    [4] Davies, A. etc. (1999) Dictionary of Language Testing. Cambridge University Press.
    [5] Hambleton, R. (1988) Criterion-referenced Me asurement. In Keeves, J. (Ed.), Educational Research, Methodology and Measurement: An International Handbook. Pergaman, 277-282.
    [6] Heaton. J. (1988) Writing English Language Tests. Longman.
    [7] Hughes,A. (1989) Testing for Language Teachers. Cambridge University
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
最新公布:2016大连中考考试说明!(各科汇总)
外语 ※ 洋证书大比拼:“博思”PK“托业” ※ 精品学习网
高考英语高分技巧大揭秘
360doc网文摘手
程晓堂:如何测评英语学科核心素养(下篇)
四级听力怎样才能拿高分:大学英语四级考试中,听力理解部分的目的是测试学生运用所掌握的基础语...
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服