二完善高等学校考试招生制度(第1页)
二、完善高等学校考试招生制度
(一)深化考试内容和形式改革,保证高考的科学性、导向性和规范性
由于高考的高利害关系,其考试内容与评价方式直接关系到高中阶段的教学与学生知识结构。《教育规划纲要》中对于考试内容与形式的改革作了专门的论述,“深化考试内容和形式改革,着重考查综合素质和能力。以高等学校人才选拔要求和国家课程标准为依据,完善国家考试科目试题库,保证国家考试的科学性、导向性和规范性”。
1。高考内容与技术的改革和发展
自1977年恢复高考以后,高考改革成为中国最受关注的问题之一。随着新一轮课程改革的推进,高考的内容也必然要依据新课程标准的要求进行改革。2004年,广东、海南、山东和宁夏四省区率先开始高考新课改实验;2007年,四省区执行了新课改后的高考改革方案;2009年年底,北京、黑龙江、吉林、陕西、湖南也相继公布自己的方案,至此,全国有15个省市区公布了新课改后的高考改革方案。近三十年余来,高考从形式到内容都发生了重大变化,在考试理论和技术上也有了长足进步。
首先,高考考试内容的变化。20世纪80年代末,考试专家就关注到了高考考查能力的问题。90年代初,原国家教委提出在改革科目设置的同时,考试内容和形式也将相应改革;在考查知识的基础上,注重考查能力。教育部考试中心组织专家经过5年的研究,结合我国高考实际情况,界定了高考需要考查的学科能力,作为编写《考试大纲》和《考试说明》的基础,应用至今。此后,高考考试内容的改革围绕能力考查的可操作性展开,并对如何考查学生的综合能力和跨学科能力进行了一系列的试验。但是由于跨学科综合能力题目的命题难度大,实践证明不具操作性,因此并没有继续开展下去。不过,改革并非全无成效,根据教育部所提出的高考命题“要把以知识立意转变为能力立意”,一些好的考查能力的题目得以出现在各科高考试卷上,考查了学生的学习潜力。[3]
其次,高考标准化改革。始于20世纪80年代末的高考标准化运动,是我国考试方式从传统走向现代的开端。当时,参照西方发达国家的做法,并依据心理测量学理论,从考试命题、考试实施、评分阅卷、分数报告和使用等4个主要环节都进行了标准化、规范化改革,引进了多项选择题、双向细目表和误差控制技术,制定了考试命题和管理的各种规范。改革中还特别注意到适应中国国情,如我国高考标准化考试至今也并没有像美国那样全部采用选择题。[4]
最后,除标准化改革之外,作文评分误差控制、无纸化评卷、计算机在考试管理各环节的普遍应用,分省命题以及招生录取的阳光工程等,都属于近年来高考技术和方法层面上的改革。总的来说,30年的高考改革历程十分艰辛,也取得一些卓著的成效。但就高考的考试内容和考试技术而言,仍有许多需要进一步完善和改进的地方。
2。当前高考的考试内容和考试技术方面的主要问题
首先,考试内容与形式的单一性制约素质教育的全面实施。
高考作为教育考试的重要组成部分,主要用于检测学生在基础教育阶段所掌握的知识和能力,为高校选拔人才。但由于高考试题内容的多样性不足,只有文科类和理科类两个大类,不同层次、类型的学校使用同一张考卷,考查同样一些内容,这就导致所有学生被要求学习同样的内容,不利于教师因材施教,违背了素质教育的基本原则。同时,试题内容考查知识的较多,考察能力的相对较少,尽管随着这些年的高考改革,“重知识,轻能力”的情况有所改善,但高考是无法脱离所学知识内容与考纲的,所以知识层面的试题仍占主导,不利于学生创新能力和实践能力的培养。
其次,考试技术不够完善制约高考的公平性和准确性。
在测验的编制上,考试命题缺乏科学程序,主观性强。无论是国家统考还是地区统考,都是由区域教研员根据教材和大纲自行命制,依赖于命题者的经验和理解能力。对于编制出来的题目,也没有通过预试,再根据题目难度、区分度、项目偏差以及信息量进行题目的质量检测和筛选,难以保证整张试卷的公平性和高质量。
计分方式落后。高考包含多个科目,对于考生在这些科目上所得总分的计算,目前主要使用的还是将各科分数简单相加求和的方法。但是由于各科试卷难度差异较大,简单使用原始分合成总分是不妥的,这会导致赋予各科的权重不同,造成水平相同但擅长不同科目的学生最后的总分有差异。因此,国际上的主要考试机构,几乎不再使用原始分。另外,有的地方高考也使用标准分为计分方式,如海南。但是,标准分只适用于一套高考试卷的计分,对于区域之间和跨年级试卷的比较上仍然存在较多问题。
对于试卷分析的技术相对比较落后。近年来,对于全国高考试卷和分省命题试卷,主要从学科专家的主观评价、社会调查的学生、教师反响及考生抽样数据的统计分析四个方面进行评价。试卷多次测量的稳定性,以及对于优秀学生选拔的有效性难以考量。尽管社会调查及考生抽样数据的统计分析提供了量化的评价服务,但传统的问卷量化分析和经典测量理论指导下的考生抽样数据试题、试卷分析结果存在着样本依赖的局限。[5]
3。其他国家和地区的经验
由于并非每个国家都采用统考的形式,“高考”一词将被赋予更广泛的含义,泛指各国高等院校招生录取相关的各种考试。下面以我国香港、英国和美国为例,对发达国家和地区高考的先进经验做一些介绍,作为我国高考改革的依据和参考。
香港的“高考”由香港考试及评核局主办,每年3~5月举行。英文运用、中国语文及文化两科是必考科目,另有20多个选考科目,学生可以选考高级程度(AdvancedLevel,AL)或高级补充程度(AdvaaryLevel,ASL)。AL和ASL都采用标准分,由于学生考试科目不同,选考的科目分数(等级)根据该科目考生群体在必考科目上的整体表现进行校准。
在英国,年满16岁的学生需要参加普通中学毕业文凭考试(GCSE),成绩较好的学生通常会继续学习两年,参加3科或以上A-Level考试,作为申请大学入学的依据。GCSE和A-Level都是标准化考试,主管教育考试标准的英国资格与课程管理局出台了《考试实施规程》,规定了保证统一教育评价及考试质量的原则与规范,考试机构及考点的作用与责任,以及实施高质量考试的必要条件。与香港高考一样,A-Level考试科目不同,采用的是校准后的标准分。
美国虽然没有高考之说,但大多数大学把学能测验(ScholasticAptitudeTests,SAT)和大学测验(AmeriCollegeTestingProgram,ACT)作为录取新生的重要依据。SAT由美国大学委员会(CollegeBoard)管理,美国教育考试服务中心(以下简称ETS)主办。SAT包括两个部分:SATⅠ是推理测验(ReasoⅡ是科目测验(SubjectTests)。SAT推理测验用于测试学生“发展成熟的”批判性思维和推理能力,现在提供的分数包括数学、批判性阅读和写作;SAT学科测验用于评估候选者在某些特定领域的知识掌握情况,共有20个科目,包括文学,美国史和世界史,数学,生物学,化学,物理学,以及外语等。ACT包括4部分:英语、阅读、数学和科学。SAT考生考试的科目相同,因此使用的是平均分为500分,标准差为100分的标准分(满分800分)。ACT使用了一种评分量表:ACT四个测验以及作文部分的分数范围均从1~36,平均分则是使用1988年具有全国代表性的高三毕业生样本,并设定为18分。
在考试标准化方面,美国教育研究协会、美国心理学会和全美教育测量学会联合编写了《教育与心理测试标准》,从测试的制作、评价和文件存档,测试中的公平性,以及测试的应用三方面明确规定了测验编制者、发行者和使用者应当遵守的条款和原则,使考试更加规范。
4。高考考试内容和技术上的改革方向
为了提高命题质量,实现对学生能力的考查,保障高考的公平性和准确性,高考需要从以下几个方面进行改革。
第一,成立国家考试指导委员会,推进高考的标准化。
制定标准是保证高利害考试质量的有效途径。成立国家考试指导委员会,制定适合我国国情的考试标准,有利于保障高考的公平性和准确性。我国对高考标准化改革已经进行了20余年,但公众对于标准化考试的理解多有偏颇,譬如误以为高考标准化就是选择题的使用。实际上,标准化涉及从测验框架的设计到考试评价的整个过程,高考的标准化应当是整体的标准化。因此,必须借鉴国际先进经验,在总结先前经验的基础上,进一步推动高考标准化改革的进程。
第二,考试内容的改革:从知识衡量转向对能力的考查。
《教育规划纲要》明确指出高考要“着重考查综合素质和能力”,这是国家首次正式发布文件强调高考对学生能力的考查。这不仅与“德育为先,能力为重”的人才培养模式遥相呼应,也与国家创新型人才培养计划高度相关。为了实现这个目的,高考要逐步完成从“知识立意”到“能力立意”的命题思路转变。“以能力立意”,就是要根据各学科考查的能力目标,列出考查知识结构、能力结构的双向细目表,编制学科能力结构图,并对每一道试题进行能力功能定位;此外,还应注意试题素材的选取要紧密联系社会、经济、科学发展的实际,反映时代性要求;题目难度和时间要合理配置,减少大量计算和大量记忆的题目,给学生留出更多的思维空间;对于测验的结果,还要深入挖掘分数之下所隐藏的学生认知结构和解决问题的策略。[6]
第三,与新课程改革密切衔接,优化考试大纲。
目前我国高考命题所依据的考试大纲还是基于课程标准和教学大纲的,这种过分注重教学大纲、拘泥于课程的考试难以测量学生的综合能力,也不能保障预测学生在大学中的学习水平;但另一方面,由于高考的高利害性,教师的教学却通常依据考试大纲来开展,而忽视了课程标准中考试大纲未能涵盖的内容。随着新课程改革的推进,学生创新能力和实践能力的培养更加受到重视,未来的考试大纲应当与新课程紧密衔接,由一个专门的专家团队通过科学的程序进行研发,并使其具有跨年度的稳定性。需要注意的是,考试大纲只能涉及课程标准中能够通过统考考核的部分,对于不能由纸笔测验衡量的部分,需要通过其他指标(如综合素质评价等)来评价,确保教师依据课程标准而不是考试大纲开展教学工作。
第四,推进考试技术在考试内容与评价方式改革中的应用。
由于我国考生数量庞大,高考的安全性一直受到广泛关注,而高考的公平性和准确性则相对被弱化了,导致高考弊病重重,如分数报告简陋,结果使用不当,质量考查形同虚设等等。引进先进考试技术,是高考公平性和准确性的保障。
《教育规划纲要》明确指出在今后的高考改革中,要逐步“完善国家考试科目试题库”。题库的完善是高考改革的基础性工程。题库,顾名思义,是指测验试题的有序集合,按照指定的测验编制要求,可以灵活便捷地从题库中抽题组卷,生成彼此等值的多份试卷。[7]像高考这样的大规模教育考试,只有两三个复本的状态已经无法适应需要。为了使得地区和全国范围内的结果可比,建立并完善高考的题库十分必要。此外,题库不仅可以用来生成固定化结构的试卷,也可以作为计算机化自适应测验的基础,有利于高考向着信息化的方向发展。此外,题库的核心是题目,题目的命制是题库建设的关键。为了提高命题质量,需要建立学科测评量表框架标准,编制测验的指标体系和细目表,让命题人员依据命题规范接受良好的培训,并获取最先进的测量技术和数据分析支撑服务。
在计分上,有两种方式可供选择。一种是采用国际通用的标准分,并对选考科目的分数根据该科考生群体在必考科目上的整体表现进行校准。另一种更为复杂的方法是使用IRT的量表分数,将客观等距的分数量尺引入到考试分数报告中。这种计分方式有利于全国试卷和分省市命题试卷及不同年度高考分数的横向和纵向等值,实现跨省跨年级横向和纵向的比较,从而更好地为各级教育行政、考试机构提供咨询和建议,最终达到服务教育的目的。
在高考结束后,还需要对测验的信度和效度,以及试题的难度和区分度进行分析,作为衡量高考试卷质量的依据,以保证高考的科学性、公正性。从心理测量学的角度来看,一个测验的公平性是与其信效度紧密相关的。对高考公平性的心理测量学评估包括两大类型的调查分析。一是分析在预测某一效标(如大学GPA)时是否存在不同的预测力;二是对题目内容进行审查。前者旨在判断考试分数在预测之后成绩上是否对所有群体都是平等的,以及在特定群体下预测方程是否对GPA的预测存在系统性偏高或偏低的情况。对题目内容的审查是指在测验实施之后,通过项目功能差异(differeioning,DIF)检验,探查不合理、不公平的题目。
总的来说,高考改革需要在高考的命题、施测、评分和评价工作中引入先进的教育测量和评价理念、技术和操作方法,结合我国高考的特点,从考试内容和考试技术上做进一步的改进。
(二)克服“一考定终身”的弊端,形成多次选择、分类考试的多样化考试制度
考试制度是一个国家评价自身教育质量、选拔人才以及进行社会分层的重要手段之一。我国作为一个具有悠久历史的考试大国,从古代科举考试,到当代的高考制度,历经了数次变革。在改革开放三十余年后的今天,面对社会各界对现行招生考试制度越来越多的争议,《教育规划纲要》对考试制度的改革进行了专门的论述,针对我国目前考试制度存在的问题,提出了改革方案,“以考试招生制度改革为突破口,克服一考定终身的弊端,推进素质教育实施和创新人才培养。按照有利于科学选拔人才、促进学生健康发展、维护社会公平的原则,探索招生与考试相对分离的办法,政府宏观管理,专业机构组织实施,学校依法自主招生,学生多次选择,逐步形成分类考试、综合评价、多元录取的考试招生制度。加强考试管理,完善专业考试机构功能,提高服务能力和水平。成立国家教育考试指导委员会,研究制定考试改革方案,指导考试改革试点。”
1。我国高考制度的现状与问题