【学生管理】丁笑炯:高校学生学习结果测试的国际经验

时间:2019-12-03  点击:
手机版

  作者简介&引用本文

  作者简介:丁笑炯,研究员,哲学博士,从事国际与比较教育、教育国际化研究。

  引用本文:丁笑炯.高校学生学习结果测试的国际经验[J].高校教育管理,2019,13(6):45-54.

  摘要:近10年来,对高校学生学习结果进行标准化测试的需求渐趋高涨,越来越多的国家开始研发测试工具并加以实施,高校对测试的态度也从消极抵制转为主动参与。本研究通过对比国际上8种学习结果测试工具,有以下几点发现。第一,就测试内容而言,目前在高校中更为流行、更有影响力的是通用技能测试。我们若想对学生的专业技能进行测试,则需将学生划分为更多类别,将专业细分为更多分支,以增强测试的针对性。第二,就测试题目而言,重要的不是运用什么样的题型,而是题目中是否含有丰富多样的信息,以反映现实世界的多样性和复杂性。第三,就测试结果的应用而言,保密原则和建立网络数据库至关重要,前者有助于高校将注意力集中于教学改进而非大学排名,后者有助于高校按需对数据进行深挖。

  关键词:高校;学习结果测试;本科教学质量;标准化测试;大学生学习评价;高等教育能力

  摘要&关键词

  高校的教学质量一直受到各国政府和民众的高度重视。现有对高校的评估大多涉及高校的投入或教师的产出,如认证机构关心的是学校经费和终身制教师比例等办学条件,各类大学排行榜的主要指标是教师发表论文和获得课题的数量等。这些或多或少忽视了高校在学生培养方面的职责,难以为高校改进教学提供信息。

  与此同时,知识经济和通信技术的快速发展在很大程度上改变了社会和企业对高校毕业生的要求。面对海量信息,毕业生需要具备一定的批判思维能力,能够分析各种信息的有效性和可靠性,并能找出解决问题的方法。此外,毕业生还需要具备一定的写作能力,以便借助文本等形式,促进团队合作。在美国学院与大学协会(Association of American Colleges and Universities,AACU)的调查中,80%的院校学术负责人认为,批判思维和写作能力应是学生最重要的学习结果。加拿大安大略省的调查也发现,批判思维和读写能力是学生在生活和工作中获得成功的关键。但是,这些学习结果一方面难以通过传统的考试得以反映,另一方面也较少体现在高校的教学中。2000年,澳大利亚学者调查了该国企业对高校毕业生的满意度,发现企业普遍认为高校毕业生在创造性和鉴别力、口头与书面交流、人际交流等方面存在缺陷。21世纪初有学者对美国大学生的测试也表明,学生在学期间的批判思维、写作和论点建构等方面的能力没有获得显著提升。政府和民众开始要求加强对高校的问责,培养社会和企业需要的人才。于是,评估学生的学习结果不再是高校的内部事务,而成为政府和社会的共同关注。

  大多数对高校学生的测试采用间接的方式,即让学生在问卷中报告自己主观的学习感受、成效和满意度。受到我国教育研究者广泛关注的“全美大学生学习性投入调查”(National Survey of Student Engagement,NSSE)和澳大利亚的大学生“课程体验问卷”(Course Experience Questionnaire,CEQ)便是典型的例子。近10年来,随着政府、企业和公众对高校透明度和问责的要求越来越高,越来越多的国家开始研制和实施标准化的学习结果测试,直接测量学生掌握的知识与技能。2006年,美国高等教育未来委员会(Commission on the Future of Higher Education)发布报告,呼吁在高校认证中考虑学生学习结果的测试数据,并将这些数据公之于众。之后,美国教育部拨款36亿美元用于开发相关测试工具。美国公立与赠地大学协会(Association of Public and Land-grant Universities,APLU)和美国州立学院与大学协会(AmericanAssociationofStateCollegesandUniversities,AASCU)共同实施的高校自愿问责系统,也强调对学习结果进行标准化测试的重要性,并为高校公开测试结果提供了网络平台。高校逐渐认识到测试结果对内可以促进教学方式的改进,对外可以向政府、认证机构和公众证明自己存在的合法性,于是其对这些测试的态度发生了明显转变。20年前,许多高校和教师强烈反对对学生进行标准化测试,但今天,大多数教师争论的焦点不是要不要参加测试,而是参加什么样的测试。2013年,美国国家学习结果测试研究所(National Insititute for Learning Outcomes Assessment,NILOA)对美国1202所本科高校的问卷调查显示,使用外部标准化学习结果测试的高校从2009年的38%增加到了2013年的45%,在近3/4的高校中,学习结果测试得到“较大”或“极大”的支持。

  早在20世纪80年代,为我国学者所熟知的“大学学习成果测量”(College Outcome Measures Program,COMP)、“学术档案”(Academic Profile)、“大学学术水平评估”(Collegiate Assessment of Academic Proficiency,CAAP)和“大学基础学科考试”(College Basic Academic Subjects Examination)等学习结果测试工具就已经在美国得到开发和运用,但那时可供选择的工具不多,测试的形式也较为单一。如今,一些旧有的测试或得到升级优化,或被新的测试取代,各种新型的测试手段和工具迅速涌现,为政府和高校提供了丰富的选择。这些测试有的由政府主导,有的由第三方设计和实施;有的强制全体学生参加,有的采用自愿参加的方式;有的聚焦于学生的通用技能,有的增加了专业知识和技能方面的内容;有的需要学生完成所有模块,有的允许高校和学生按需挑选;有的为全程无纸化操作,有的则提供多种形式供高校和学生选择。还有少数测试仅提供学生或高校层面的信息,让学生或高校了解自己所处的水平;而更多的测试同时提供这两个层面的信息,在对学生进行形成性评价的同时,为高校反思教学提供数据。

  本研究在中国知网和ProQuest等数据库、谷歌等搜索引擎以及加拿大安大略省高等教育质量委员会(Higher Education Quality Council of Ontario,HEQCO)的学习结果中心(Center for Learning Outcomes)等专门从事高校学生学习结果测试工作的机构网站上,以“高校学生学习结果”为主题词检索相关测试,并从中挑选出已开发专门网页的测试,以便获得更加详细的信息。经检索筛选后,本研究共搜寻到8种测试,分别是澳大利亚的“毕业生技能评估”(The Graduate Skills Assessment,GSA)、美国教育考试服务中心的“熟练水平概要”(ETS Proficiency Profile,EPP)和HEIghten、巴西的“国家学生学业表现考试”(National Exam of Student Performance,ENADE)、日本的“通用技能进展报告”(Progress Report on Generic Skills,PROG)、德国的“高等教育能力建模与测量”(Modeling and Measuring Competencies in Higher Education,KoKoHs)、经济合作与发展组织(The Organization for Economic Co-operation and Development,OECD)的“高等教育学习成果评估”(Assessment of Higher Education Learning Outcomes,AHELO)和美国教育援助委员会的“大学生学习评价升级版”(Collegiate Learning Assessment+,CLA+)。

  并不是所有的测试都如预期的那般成功,其中,一些测试(如GSA和AHELO)因种种原因被停止或搁置;一些测试(如EPP、ENADE和PROG)虽遭到抵制和批评,但仍被政府或部分高校采用;一些测试(如HEIghten、KoKoHs和CLA+)则在研究的基础上不断升级更新向前推进。本研究围绕测试内容的选定、测试题目的设计、测试结果的呈现与应用3个方面,对比上述8种测试止步不前或持续发展的原因,试图揭示成功的高校学生学习结果测试应该具备的特质。

  一、测试内容的选定

  (一)通用技能

  目前国际上大多数高校学生学习结果测试以通用技能为主要的测试内容。在上述8种测试中,有5种(GSA、EPP、HEIghten、PROG、CLA+)聚焦于通用技能。不同的测试对通用技能有不同的界定和分类,其中既有差异,也有交叉重叠。就差异而言,例如GSA、HEIghten和PROG将人际理解与合作作为通用技能的组成部分,而其他2种测试则不包含这项内容;对于公民能力则只有HEIghten加以考察。就交叉重叠而言,5种测试都将批判思维作为主要的测试内容,但对批判思维的理解却各不相同。CLA+将批判思维划分为3个维度——科学与量化推理、批判阅读与评价、论点批判,要求学生综合使用这些技能,解决与真实生活有关的问题,在此,问题解决与批判思维的各个维度紧密相连。而在GSA中,问题解决被列为一项独立的技能,从批判思维中分离出来。EPP则将量化素养独立出来,作为与批判思维并行的能力。本研究梳理了上述5种测试涉及的通用技能,并将其中相同的部分予以合并,如将GSA中的问题解决并入批判思维,因为两者都强调在分析、整合信息的基础上解决问题。量化素养从根本上说也可以作为解决问题所需的技能并入批判思维,但是由于在EPP和HEIghten中相关试题以数学题的形式出现,而其他测试更看重学生读懂和运用数字信息的能力,两者的考察方式迥然相异,所以本研究将量化素养和批判思维拆分为2种技能。5种测试对通用技能的分类与界定详见表1。从表1中可以看出,批判思维是所有测试共同关注的一项通用技能,它要求学生对信息进行整理和分析,对信息是否真实、有效做出判断,往往还需要在综合信息的基础上解决具体的问题。另一项重要的通用技能是书面交流,它要求学生用清晰、连贯、符合逻辑的语言,陈述和论证自己的想法。前文提及美国和加拿大的调查发现,批判思维和书面交流能力被普遍视为最重要的学习结果。就此而言,现有的通用技能测试较好地回应了社会和企业对高校毕业生的需求。

  表1 5种测试对通用技能的分类与界定

  

  此外,随着工作中团队合作的增多、人员国际流动规模的扩大以及对青年人参与社会和政治生活的日趋重视,人际理解和公民能力也成为一些通用技能测试的组成部分。与其他类型的通用技能相比较,人际理解和公民能力往往与一个国家或地区的文化传统紧密相连,因此测试中含有较多的文化假设和价值判断。例如GSA人际理解测试的一道样题模拟了学生团队合作的场景。4位个性不同的学生正在商讨如何完成大学里的一个小组学习项目,其中一位名叫贝蒂的学生与另一位学生在自己希望承担的任务上发生了争执,贝蒂坚持己见,希望承担研究而非联络或成果展示任务。接下来的问题是让学生选出最符合贝蒂的描述,正确答案是贝蒂的优点是自信、有冲劲、勤恳,缺点是比较强势、执着。学生是否选择这个答案,很大程度上取决于他们是否将“强势”和“执着”视为缺点。为了“正确”回答这道题目,学生必须持有与出题者相同的价值判断。测量人际理解和公民能力的另一种方法是运用李克特量表,对学生的回答赋予不同的分值,如选A得4分,选B得3分等。HEIghten和PROG中的部分题目就采用了这种形式。这样的试题虽然在一定程度上避免了用一把尺子衡量所有学生,但它们更像是在测量学生某方面的人格特质,而非学生的知识和技能。人际理解和公民能力测试中遇到的这些问题,也许可以从另一个角度解释为什么更多的通用技能测试将焦点放在批判思维和书面交流这两个方面。

  (二)专业技能

  不少高校和研究者认为,通用技能测试的主要局限是无法评估高校中各式各样的院系对学生专业能力的培养,而这种专业能力是院系的首要培养目标,学生也在其中投入了最多的精力和时间,仅对通用技能进行测评很可能无法真实地反映高校在学生能力培养方面独特的贡献。于是,另外3种测试(ENADE、AHELO和KoKoHs)在注重通用技能的同时,也将专业技能纳入其中。

  巴西的ENADE启动于2004年。作为全国性的本科生学业水平评估工具,它面向巴西所有公私立大学,相关专业的本科新生和毕业班学生均需参加。就此而言,ENADE可能是世界上迄今为止覆盖面最广的高校学生学习结果测评。它将高校的各个专业划分为3个大组,每年测试其中的一组。每一组的测试时间为4小时,其中通用技能10题,不区分专业;专业部分30题,完全依照各专业的国家课程指令,测量学生对相关内容的掌握程度。但不同高校的专业教学目标和重点纷繁多样,这30道试题究竟应该有怎样的广度和深度才能反映相关专业的整体教学质量?对此,专家们至今争论不休。这也是ENADE遭到巴西高校批判和抵制的原因之一。

  为避免出现与ENADE类似的问题,AHELO和KoKoHs采取了不同的解决路径。AHELO是跨越不同国家、语言和文化界限,在国际上测量高校学生学习结果的第一个尝试。它共开发了两类3种测试:一类是通用技能测试;另一类是专业技能测试,其中包括经济学和工程学两个学科。AHELO摒弃了ENADE过度依赖课程内容的做法,将目光聚焦于学生运用所学知识和技能解决问题的能力。依照此种策略,AHELO发现,让各国的学科专家就学生的学习结果达成一致比预想的容易得多。

  德国的KoKoHs启动于2011年,与ENADE一样,它的测试群体也涵盖了各科学生。不同之处在于,KoKoHs不采用统一考试的方式,而是根据学生所学专业、所要考查的能力以及所处的阶段(如新生、本科毕业班学生、硕士毕业班学生等),将学生划分为更多组别,以增强测试的针对性。由于组别繁多,所以KoKoHs在第一阶段(2011—2015年)就实施了23个项目。每个项目都针对一个特定的组别,考查学生某项特定的能力,如一年级师范生阅读学术文本的能力、大学生处理科学一次文献的能力、物理师范生的专业知识等。为确保项目间的协同,这23个项目围绕通用技能和在德国最受欢迎的4个学科(STEM学科教师培训、教育科学、经济学与社会科学、工程学)开展。第一阶段结束时,23个项目共开发了近90种书面测试和电脑测试工具 (见表2),其中有些测试工具还采用新式的方法来测评特定的能力,如用角色扮演来测量学生的交流技能,用关键事件对学生能力等级进行质性的深度分析等。虽然KoKoHs的大多数测试工具目前还处于试验阶段,但其新颖的测试理念在国际上引起了不小的反响,部分测试工具已经被其他国家所采纳。目前,KoKoHs已经进入第二阶段(2015—2019年),15个测试项目得以立项。

  表2 KoKoHs第一阶段开发的测试工具

  

  二、测试题目的设计

  上述8种测试中至少6种测试都同时采用封闭的选择题和开放的任务题(如让学生撰写一篇文章或短文、完成题目中给出的任务)这两种题型,只有个别测试将任务题作为附加题供高校自行取舍(如EPP)。在同时采用这两种题型的测试中,绝大多数测试以选择题为主,要求学生根据题目中给出的句子,在一组既定的答案中进行选择。例如GSA的一道批判思维题给出了2个论点,即“我们的社会将从更少的政府介入和规制中受益”和“未来会为我们的社会提供巨大的机会和挑战”,要求学生选出能最恰当地描述这2个论点关系的答案,如两者相互重复、相互矛盾、相互支撑或者无关。支持者认为,这样的题目客观性强,有利于避免主观评分的不确定性。但批评者指出,无论是通用技能测试还是专业技能测试,目的都是了解学生是否能够应对现实生活的复杂性和模糊性,是否能够识别问题,并为解决问题收集多种证据。而选择题题目中含有的证据较少,学生也只需在一组备选答案中剔除错误的回答即可,这显然与高校的教学目标相背离,因为高校教给学生的经验之一就是知识是暂时的,没有什么答案是不可更改的。而且,现实生活复杂多样,不一定总是有标准的正确答案。例如上述批判思维题的标准答案是两者无关,但若学生对这一问题作进一步思考,发现政府的较少干预意味着市场力量的兴起,从而为社会带来了巨大挑战,便可能做出其他的选择。

  此外,很多旨在考察学生理解信息、辨识信息有效性的试题,实际上测量的是语法和词汇,考查的是对单个字词或句子的理解,如改写一个句子或指出其中的语法错误,而不是对整个段落或短文进行组织和推理。例如EPP中的一道样题给出一句用8个单词写成的句子,即“Being a female jockey,she was often interviewed”,要求学生从给出的4个选项中选出对“she was often interviewed”最贴切的改写方式。同样,问题解决类的试题有时仅仅是让学生排列时间表、预定会议室或画一张工作流程图;数学题的解答也不一定需要学生具备高等教育的知识与技能,简单的四则运算便能满足大多数题目的要求。如GSA的一道问题解决类题目中要求学生为校内的4个体育俱乐部安排每周一至周五的午间会议,每个俱乐部每周开会一次,且开会当日俱乐部必须没有训练。在给出各俱乐部的训练日后,学生需要在4张会议时间表中,判断哪张表的会议与训练时间没有冲突。即便是在任务题中,尽管这些题目不一定有固定的正确答案,但题目中给出的也只是一些简短的观点和陈述,学生不需要根据大量证据进行推断和论证,而只需按照个人的经验和喜好撰文,比如上学时间是否应该根据学生体内的生物钟来定,最低驾驶年龄是否应该提高到18岁等,学生最后的得分主要取决于书面语言的质量,而不是论据的组织和论点的有效性,这与高校强调在充分收集论据的基础上开展研究的训练截然相反。不少研究者因此质疑,这样的测试能否真正考查高校学生的批判思维等高阶技能。

  由于这样的试题中含有的信息较少,考查的实际上是语法、词汇、计算等较为简单的技能,所以不少测试很容易呈现出“天花板效应”,即大部分学生在测试中表现良好,从而无法为学生和高校提供更多有用的可比信息。例如澳大利亚教育研究委员会(Australian Council for Educational Research,ACER)于2002年对GSA的效度进行研究发现,3663名新生和毕业班学生的分数大多处于同一等级。澳大利亚大学校长委员会(Australian Vice-Chancellors′ Committee,AVCC)因而批评说,GSA不适合评估大学教育对学生通用技能的贡献。PROG亦是如此,尽管它在日本大受欢迎,自2012年实施以来已有近300所大学超过25万名学生参与其中,但高校一年级至三年级学生的测试分数相差不大,四年级学生才表现出某种提升。

  与其他测试相比,CLA+截然不同。CLA+认为,选择题是把日常生活中遇到的复杂问题分解成一个个小任务,但把完成这些小任务的情况总和起来,却不一定能反映学生是否具备了应对现实生活中复杂问题的能力,因为现实生活中的问题是以整体的形式呈现的。鉴于此,CLA+从一开始就把任务题作为主要的题型,要求学生在一道题目中综合运用多种技能。更重要的是,为避免学生仅凭个人经验答题,CLA+为每道任务题设立了“文件库”,内含多种来源和类型的资料,如技术报告、数据表、报纸文章、社论、办公室备忘录和电子邮件等,展现各种矛盾冲突的信息和立场,从而体现高等教育所强调的在充分证据的基础上形成论点的原则。例如在一道任务题中,学生扮演一家虚拟运动器材公司的首席营销官,该公司在广告攻势下,其新开发的溜冰鞋销售量迅速攀升,成为公司盈利最多的产品。不过,一名10岁的男孩在穿着这款溜冰鞋玩耍时遭受重伤。批评者认为,这是因为公司的广告让人们产生误解,以为穿着这款溜冰鞋表演各种特技是安全的。学生需要决定是否继续目前的广告攻势,并用文件库中的资料来支持自己的判断。文件库共含7份文件:一是公司成立至今的简介,包括各类产品的销售额;二是当地新闻对这次溜冰事故的报道;三是学校保安填写的事故报告;四是当地电视台与消费者保护研究所研究部主任的访谈记录;五是国家消费者安全协会有关不同品牌溜冰鞋的事故率报告,其中包括发生事故的溜冰鞋品牌;六是该款溜冰鞋的广告情节串联板;七是网络上有关这次事故的一篇博文。同样值得一提的是,CLA+在题目设计时就确保每道任务题都有三四种可能的回答,每种回答都能在文件库中得到相关资料的支撑。在上述文件库中,研究部主任明确说自己不会给孩子买这款发生事故的溜冰鞋,并说明了技术方面的理由;而事故率报告显示,该款溜冰鞋的事故率并不比其他溜冰鞋高。无论学生最后做出怎样的决定,只要根据这些信息加以清晰地论证,都能取得好分数。这符合现代社会中知识发现的特征,也更加真实地反映了现实生活的复杂性和多样性。

  CLA+每份试卷在一道任务题之外还有25道选择题。选择题虽然有标准答案,但在试题的设计上沿袭了任务题的特点,每道题目都附有1~3份性质不同的资料。例如一道科学与量化推理题虽然只提供了一份资料,但这份资料有500多字,外加两张图表,描述化石燃料、玉米乙醇和生物燃料的市场占有量、生产所需的资源、有害气体排放和产量等各种信息,要求学生综合判断其对环境的影响,解释各种市场现象。CLA+的这种测试理念和方式已经得到越来越多的国家和院校的认同。在美国,CLA+的测试对象正从高等教育向基础教育延伸,成为按照共同核心州立标准(Common Core State Standards)开展教育测试的主流方法。在国际上,CLA+不仅被选为AHELO通用技能测试的主要组成部分,而且得到澳大利亚、加拿大和意大利的推荐,成为国际上团体用户最多的学习结果测评工具,高校用户超过700所。最近,CLA+又与OECD达成协议,从2017年起开展“CLA+国际研究”,测量不同国家高校学生的批判思维能力。某种程度上,HEIghten的批判思维模块在选择题的设计上也采用了类似CLA+的做法,但HEIghten并不是所有的选择题都附有多种来源的辅助信息,而且即便是包含多种信息的题目,其信息的多样性和丰富性也往往不及CLA+中的题目。

  CLA+以及部分HEIghten试题的上述特征更适合测试其所声称的批判思维等高阶技能,测试结果很少出现“天花板效应”。宾夕法尼亚大学和弗吉尼亚大学等精英大学曾认为,自己的本科一年级新生就可以在CLA+中获取高分,但事实证明,即便是在这样的高校,学生的分数也呈正态分布。HEIghten亦是如此,2015年,其批判思维模块在美国19个州的28所四年制大学和7所两年制学院的3036名学生中试测,结果表现出新生与毕业班学生具有明显的差异,后者的得分比前者高出0.30个标准差,达到统计上的显著水平。

  三、测试结果的呈现与应用

  学习结果测试的主要目的是增加政府和公众对高校教学质量的了解,并为高校改进教学提供数据支撑。因此,除个别测试(如ENADE和AHELO)仅提供高校层面的信息,个别测试(如PROG)仅提供学生个体层面的分数外,绝大多数测试同时提供以上两个层面的信息,以便高校和学生通过横向对比了解自己所处的位置,识别学生(包括学生个体和学生群体)在学习中面临的困难。在学生个体层面,这些测试一般提供两类分数——常模参照分和标准参照分,前者将某个学生的分数与所有参加测试的学生进行比较,通常还会标识其在特定群体中的相对位置;后者衡量学生是否达到了预先设定好的熟练水平。在高校层面,这些测试提供的信息更为多样,除了本校参加测试学生的平均分和达到各熟练水平的学生比例,以及与所有参加测试高校的对比之外,还可以计算标准差、中位数、四分位数和置信区间。

  在横向对比之外,很多测试鼓励不同年级的学生同时参加,或对某一年级的学生进行追踪测试,意在通过纵向比较,刻画学生的成长轨迹,计算高校教学为学生带来的增值效应。一些较早开发的测试主要通过比较不同年级学生的原始分数来反映高校教学对学生的影响;新近开发的测试则更多使用标准差,如将四年级学生的均分减去一年级学生的均分,再除以一年级学生的标准差,以控制不同学生群体之间的差异。当然,影响学生学习结果的因素繁多,教学只是其中之一。为了减少非教学因素的影响,CLA+提出了一种新的增值效应计算方法,即根据四年级学生家长的受教育水平和一年级学生的CLA+表现,控制学生的家庭背景和入学基础,确立每所高校的预期增长值,然后按照四年级学生的CLA+分数,评估学生实际上获取的增长与预期增长间的差异。增值效应分值越高,说明与其他同类高校相较,某所高校对学生学习进步的贡献越大;分值为负也不一定意味着高校没有为学生的成长作出贡献,而可能是这种贡献小于对同类型高校的预期。

  测试结果运用于高校教学改革的前提是高校自愿参加测试,且相关结果是保密的,从而使参加测试的风险降至最低。无论出于什么理由,一旦高校被强制参加测试,或测试结果被公之于众,参加测试的风险就会大大增加,并因而遭到高校的抵制。这也是AHELO在完成了可行性研究之后,未能如预期般推行主测试的一个重要原因。与OECD的其他国际测试一样,AHELO主测试的所有数据都将在OECD的网站上公布。尽管这有助于各国研究者利用相关数据开展多样化的研究,但高校普遍担心政府会根据测试结果进行排名,并据此对拨款等重大政策进行调整,从而使AHELO偏离最初的目标。ENADE更是如此,它不仅公开高校的相关数据,而且采用强制参与的形式,将测试结果用于高校和专业的认证,从而为高校带来了极大的风险。一些高校为了鼓励学生取得好成绩,在测试中给学生提供奖励;一些高校用以往的试题对学生进行培训;还有高校利用相关规定中的漏洞,对参加测试的毕业班学生进行筛选,从而操控测试结果。

  在数据挖掘上,CLA+依靠网络开发了名为“数据挖掘器”的数据库,以便高校根据自身需要,对数据进行深度分析。高校可以剖析每一道试题,了解学生在这道题上的常模参照分和等级水平,并据此改进自身的课程设计;或查找本校学生在不同年份的表现,计算某个特定学生群(如移民学生)在学期间的能力变化,探究哪一门或哪一类课程更有助于改进学生的学习结果;或将测试结果与本校的其他数据(如入学分数、修课模式、学业成绩、学情调查)相结合,开展自己所需的分析。

  前文提及,高校学生学习结果测试回应了政府和企业对高校问责的需要。现在,一些政府开始运用这些测试进行政策分析。例如加拿大安大略省最近引入HEIghten的批判思维模块,将学生在该模块中的得分与高校行政管理数据、就业情况和所得税等相关联,探查影响毕业生在劳动力市场上表现的因素。一些企业和机构也开始运用这些测试结果开展人才招聘和职位提升工作。例如CLA+与一家职业咨询公司合作,为在测试中取得高分的学生组织专场网络招聘会,与公司人事主管进行实时互动。甚至有部队用CLA+对所有可能升职的军官进行测试,评估他们的创造思维和分析相互矛盾信息的能力。

  四、研究结论

  近10年来,对高校学生学习结果进行标准化测试的需求渐趋高涨,越来越多的国家开始研发测试工具并加以实施。与此同时,越来越多的高校改变了对测试的态度,从消极抵制转为主动参与,以期了解学生的学习结果,为改进教学、培养社会和企业所需的人才提供依据。可以说,对高校学生的学习结果进行测试已是大势所趋。本研究选取8种测试进行对比得到以下几点结论。

  第一,各种测试的侧重点各不相同,有的关注通用技能,有的同时关注专业技能,但总体而言,目前在高校中更为流行、更有影响力的是通用技能测试。这可能是因为高校类型多样,教师又享有较高的学术自由,所以专业课程的设计、目标与内容差异纷呈。当然,单一的通用技能测试无法反映高校所有的教学成果,因为高校投入精力最多的是对学生专业技能的培养。我们如果要对学生的专业技能进行测试,可能需要将学生划分为更多类别,将专业细分为更多分支,考虑不同类型学生在不同分支中需要获取的不同能力,正如在KoKoHs中所体现的。这样的测试更加细致,更能准确、公平地反映多样化的高等教育对学生学习结果的界定,但也需要投入更多的人力和物力。我们如果用统一的尺子衡量某一专业大类中的所有学生,很可能如巴西的ENADE那样因遭到抵制而失败。

  第二,大多数测试主要采用选择题的形式,题目较为简短,所含信息量较少,答案较为封闭。由于这样的题目不太需要学生综合使用多种能力,所以其真正测量的并非是批判思维等高阶技能,很容易出现“天花板效应”。要真正反映学生的高阶技能,我们就必须从整体上对学生进行考查。这就需要测试开发者在试题中为学生提供来自多种渠道的信息,展示各种矛盾和冲突,以反映现实世界的多样性和复杂性。可以说,在对高校学生学习结果的测试中,重要的不是运用什么样的题型,而是题目中是否含有丰富多样的信息。

  第三,开展高校学生学习结果测试的目的是改进教学。为降低高校参与的成本和风险,防止信息被误用,不少测试遵循保密的原则,测试结果仅提供给相关高校。那些因为公开数据而增加了参与风险的测评(如AHELO和ENADE),则遭到了更多的批评和抵制。此外,建立网络数据库至关重要,它有助于高校按需对数据进行深挖,进而提出有数据支撑的教学改进方案。

  需要强调的是,高等教育的质量有多种评价视角,除学生学习结果之外,还有科研、财务状况、学生体验、教育公平等,每个视角都有一种甚至多种测评工具。学习结果测试只是衡量教学质量的工具之一,是一整套高校质量测评工具中至关重要但不能代表全部的一部分。它采集到的数据需要与其他各种测评数据相结合,以便描绘高等教育的全景图。

  长

  按

  关

  注

  学术专精 日新又新

  

本文标签: 杨颖跳街舞 街舞的电景

上一篇:哈尔滨冰雪大世界雪博会合力打造“太阳岛冰雪季”
下一篇:赵四小姐老照片,张学良亲手拍摄 ,不过如此

街舞资讯热门