小能在线客服

Service
Online

Service OnlineService Time:9:00-17:30

Service
Hotline

010-59307634
010-59307662
Only working days

关注
微信

关注官方微信
TOP
新汉语水平考试(HSK)题库建设之我见
[source]  汉考国际                [ Date of issue]  2012-11-20 00:00:00.0
       新汉语水平考试(HSK)是一项国际汉语能力标准化考试,重点考查第一语言非汉语者在生活、学习和工作中运用汉语进行交际的能力。新HSK分笔试和口试两部分,笔试和口试相互独立。笔试包括HSK(一级)、HSK(二级)、HSK(三级)、HSK(四级)、HSK(五级)和HSK(六级);口试包括HSK(初级)、HSK(中级)和HSK(高级),口试采用录音方式。
       2011年,新HSK考生数达179592,其中在中国参加考试的考生数为48047,海外为131545。
       新HSK是否要建设题库?应该建设什么样的题库?在回答这两个问题前,可能需要先回答另外4个问题。第一,新HSK实施现状如何?第二,在了解新HSK实施现状的基础上,建设题库能给新HSK带来什么好处?第三,新HSK题库建设需要什么条件?第四,实现适应性考试的新HSK题库建设应该往何处去?
 
一、新HSK实施现状
 
       新HSK自2009年正式推出之后,无论施测还是数据统计、命题等方面,都结合实际采取了许多新的举措,与旧HSK相比有了很大的变化。
 
1.试题使用一次性,试卷考后不再保密
 
       2010年起,新HSK试卷中不再包含共同题,所有试题的使用都是一次性的。这样做,使窃题行为丧失了意义,对维护新HSK的公平性起到了积极的作用。
       从2013年起,新HSK试卷考后不再保密,考后一周即上网公布。新HSK在考后不仅公开试卷,还会公布答案。这样做,一是面对现实。因为在一些国家,考试结束当天,新HSK试题就会被一些培训机构通过不正当手段获得,全部上网,考后保密已无意义。更主要的是,体现了对考生权益的尊重,也有利于汉语的国际推广。
 
2.不再组织考前预测
 
       2010年起,新HSK不再组织考前预测。这样做,一方面是考虑到考前预测有其局限性及不可操作性:第一,出于保密的需要,被试的数量较少,其代表性值得怀疑;第二,被试的作答态度、参试动机与参加正式考试的考生不同,影响相关数据的准确程度;第三,因为是整套试卷预测,所以一旦曝光,损失尤其巨大;第四,专门组织预测需要投入一定的人、财、物力;第五,新HSK频繁地组织预测,对院校的汉语教学工作产生了较大的冲击。
       另一方面,根据经验,在命题质量有保障的前提下,预测的投入产出比并不合理。每套新HSK预测卷预测后,数据显示,不可接受的劣质题(点双列相关系数在0.2以下)比例都在5%以下。这意味着,即使不预测,这些试卷也可以投入正式考试使用。对那些极少数的劣质试题,新HSK按全体考生都回答正确处理。这样处理是有代价的:一定程度上牺牲了考试的信度,本来全卷是100个题,但事实上变成了95个题。新HSK是以一定程度上信度降低的代价同不预测做了交换。实际上,这种牺牲是可以补偿的,办法就是适当增加全卷试题数量,比如将全卷定为110个题,即使去除劣质试题,仍可保持原来试题量,不影响考试信度。新HSK将来改进时,会对题量做出调整。
       未经预测的新HSK试卷信度如何?以HSK(五级)、HSK(六级)为例,22套未经预测的HSK(五级)试卷正式考试Alpha系数在0.91-0.95之间波动;22套未经预测的HSK(六级)试卷正式考试Alpha系数在0.90-0.94之间波动。具体信息见图1、2:
 
图1
 
 
图2
 
       预测能提供试题难度数据,以便拼卷人员拼卷时控制整卷难度。但即使没有预测,由经验丰富的拼卷人员拼制的新HSK试卷,在难度控制上也达到了较高的水准。上述22套HSK(五级)试卷正式考试全卷平均难度值,除2卷外(新加坡考生占70.4%,因此试卷难度值被高估了),都在0.64-0.75之间波动;上述22套HSK(六级)试卷正式考试全卷平均难度值,除4卷外,都在0.65-0.75之间波动。具体信息见图3、4:
 
 
图3
 
 
图4
 
3.采用“平均分等值法”进行粗略等值
 
       新HSK试题的使用是一次性的,“共同题等值法”不可行,“共同组等值法”也因缺少可操作性,一直未能派上用场。通过研究,我们发现,新HSK可以尝试使用“平均分等值法”来实现等值。其假设是,在每次考试有足够数量、足够代表性考生的前提下,不同次考试考生群体的汉语水平相同或相似。如果某次考试听力平均分偏高,意味着听力分测验可能偏易,需要减分;如果阅读平均分偏低,意味着阅读分测验可能偏难,需要加分。各分测验究竟加分还是减分,调整幅度多大,由工作人员参考相关数据,集体讨论确定。
       在听力平均分均值线和阅读平均分均值线的确定上,“平均分等值法”有两种选择。一是将其固定,比如选择近三年来的20次考试,获得听力、阅读平均分均值线,今后的考试围绕这两条均值线做调整。二是将其动态化,每次考试都围绕之前所有考试形成的均值线做调整。“平均分等值法”是一种粗略的等值方法,但它简便易行,可操作性强。
       “要想取得测试等值的成功,最有价值的步骤却不在统计或者心理测量的范围之内。事实上,测试等值中最关键的环节一是在于为不同的测试版本准备相似的题目;二是在不同的试卷版本中有同等的涵盖考查内容相同、认知水平相同、试题模式相同的题目。”笔者赞同这样的见解,即突出强调:在命题及拼卷等环节上要有足够的投入,以保障平行试卷考查形式及内容的近似程度最大化。
 
4.命题工作常态化
 
       近三年来,新HSK每年在全球举办8至9次考试,对试题数量的需求较大。在兼职人员命制毛坯题、专兼职人员审题、专职人员拼卷的命题机制下,新HSK常规命题工作很好地满足了考试的需求,并形成了以下一些特点。
一是常态化。目前的命题工作,基本是当年使用的试题当年命制完成,一般有三四个月的提前量。一个有经验的命题团队,一般可以按照平均10天完成一套新HSK试卷的进度来拼制高质量试卷。这些团队基本上每个月都有命题任务,随时可以根据实际情况,增加征题量,增加人员配备,满足考试对命题的需求。新HSK兼职命题员主要是在京高校在读硕士研究生,流动性较大,规模一般保持在200人左右。
       二是网络平台化。无论命题还是审题、拼卷等工作,都基于网络平台。过去在宾馆集中审阅纸质试题的情景不复存在,效率有了很大的提高。
       三是词语控制精密化。HSK(一级)共40题,规定的150个词必须全部使用到,全卷一个超纲词都不许出现;HSK(二级)共60题,规定的300个词必须全部使用到,全卷一个超纲词都不许出现;HSK(三级)共80题,规定的600个词必须全部使用到,全卷一个超纲词都不许出现;HSK(四级)共100题,规定的1200个词必须至少“消耗”960个,全卷一个超纲词都不许出现;HSK(五级)共100题,要尽可能多地使用规定的2500词,尤其是新增的1300词,全卷超纲词控制在15%左右;HSK(六级)共101题,试题语料在词汇的使用上,原则上不受规定的5000词的限制,但考点和词语题选项中的词语应该在这5000词范围内。
       四是质量公开化。新HSK于2009年正式推出。2010年即出版新HSK真题集6册,公布了30套正式考试使用过的试卷。2012年又出版新HSK真题集2012版7册(含口试),公布了最新使用过的45套试卷。同时还陆续公布了《新汉语水平考试(HSK)研制报告》《新汉语水平考试(HSK)质量报告》《新汉语水平考试HSK(六级)试卷难度控制研究》《新汉语水平考试HSK(五级)效度研究》等。
 
二、建设题库能给新HSK带来什么好处
 
       建设题库,一定有它的目的,一定是能给现有的工作带来好处。在了解了新HSK实施现状后,我们来看看题库能给新HSK带来什么好处。
       有人说,有了题库,新HSK试题能被更有效地重复使用,可以缓解命题压力。这种说法一是已经丧失了现实基础,因为新HSK试题的使用是一次性的。二是如果命题有压力,应对之道应该是增加命题人力及经费投入等,扩大生产,保障供给,而非“一题二用、三用乃至4用”。
       有人说,有了题库,“可以通过多媒体技术的应用而提高考试的效度。”“借助计算机的多媒体技术,可以使考试情境与现实生活更接近,可以创造出各种学习、生活、工作的场景,从而使测验达到更高的效度。”他们应该是搞错了概念,基于计算机化考试、网络化考试,这些设想即可实现,与题库没有直接关系。新HSK赞同并践行机考、网考,但笔者以为,只有到新HSK纸笔考试退出历史舞台之日,才是多媒体考试形式真正实现之时。
       有人说,有了题库,才能“维护考试安全”,“由于题库可以因时生成几个平行卷,一旦泄密也可能很快补救。”实际上,将这样的功效归结于题库是不合理的。应对考前可能泄题的风险,考前多准备若干套备用试卷即可解决问题。
       还有人说,有了题库,才能使“命题工作日常化”,这明显是有了先入为主的“题库”概念后,牵强得来的理由。因为没有题库,所以命题工作无法日常化,这样的因果关系,对新HSK而言,绝不成立。
       甚至有人说,有了题库,就可以摆脱对某些命题权威的过度依赖。这是一种外行的、缺乏自信的、盲目推崇技术的认识。命题权威的形成,有赖其长期实践经验的积累,其经验值得尊重。如果担心因某个权威的工作或其他变动给考试带来损失,应该未雨绸缪,及早培养敬业、优秀的命题负责人,形成多权威局面,保证考试在某个人或几个人离去的情况下不受影响。而不是主观地杜绝权威的形成,寄希望于通过建设题库,摆脱对人员的依赖。命题工作归根结底要靠人而非机器,这是常识。
       有人说,有了题库,新HSK可以自动生成试卷,可以实现适应性考试。但是,要做到这两点,需要什么条件呢?新HSK能否满足所需条件?
 
三、新HSK试卷自动生成需要什么条件
 
       建设新HSK题库,实现试卷自动生成,需要使题库系统智能化,让它可以按照拼卷人员的拼卷思路与原则,从题库中抽取合适的试题,拼成试卷;其次,题库中要有一定数量的、通过了审查的、可供拼卷用的新HSK试题。这里的“一定数量”当然是多多益善,但即使只有三五倍的题量,也可以实现试卷生成功能。
       新HSK人工拼卷原来是基于8套毛坯题,经审查筛选、修改加工,拼制成一套正式卷;由于经费限制,现改为5套毛坯题拼一套正式卷。如果是基于题库,因为题库中的题是已经通过审查的、可供拼卷用的试题,三五倍的题量应该是在15-25套甚至更多套毛坯题基础之上得来的,质量有保障,所以是可以满足拼卷需求的。
       需要说明的是,这些试题是没有实测难度、区分度数据的。事实上,新HSK拼卷人员在人工拼卷时,并没有试题难度、区分度数据。拼卷人员对这两个因素的考虑,体现在对全卷难度和质量的整体把握上。人工拼卷做不到的,自然没必要强求系统。那新HSK拼卷人员拼卷时还考虑什么?粗略地讲,还要考虑题型、题材多样性、考查角度多样性和篇幅控制等。
       这样人工拼制的试卷质量如何?除前面提供的全卷信度、平均难度外,还有全卷平均区分度。22套HSK(五级)试卷正式考试全卷平均点双列相关系数,基本上在0.35-0.40之间波动,3卷达0.45;22套HSK(六级)试卷正式考试全卷平均点双列相关系数,基本上在0.31-0.37之间波动。具体信息见图5、6:
 
图5
 
图6
 
       笔者以为:新HSK人工拼卷质量达到了较高的水准,主要是因为有审题环节提供了有质量保障的试题。如果赋予系统按题型、题材多样性、考查角度多样性和篇幅控制等因素来筛选试题、拼制试卷的智能,系统是可以比较有效地自动生成新HSK试卷“粗坯”的。拼卷人员可以在“粗坯”的基础上进行人工干预,最终形成正式用卷。
       新HSK试卷自动生成功能的实现有赖于题库,这个题库有两个明显的特点:一是不需要有实测难度、区分度数据;二是对题量要求不是非常大。
       目前,新HSK审题与拼卷工作是同步进行的。拼卷人员获得5套毛坯题后,随即组织人员审题,在筛选、加工试题的同时,就将通过审查的试题拼入新卷。如果发现审查通过了但与此卷内容重合的试题,会将其放至下一卷。5套毛坯题处理完后,如果合格试题仍不够拼卷用,那就组织审题人员结合已有试题的相关信息补充命题,再进行审查、拼卷,直至完成全卷。有了题库后,审题和拼卷工作将是分开的。审题的终点是入库,而不再是拼出正式卷。拼卷时则不再是面对毛坯题,而是已经通过审查的合格试题。审题时不必再一心二用,拼卷时也不必再费心审题,工作效率都会有一定程度的提高。
       HSK(五级)、HSK(六级)可以考虑尝试开发这样的题库系统,基于题库自动生成试卷“粗坯”。其他4个等级因为词语控制精密化的特点,这一功能不易实现,因此仍将按既有的模式审题、拼卷。
 
四、新HSK实现适应性考试需要什么条件
 
       建设新HSK题库,实现适应性考试,关键是要有试题的实测难度、区分度等数据。这一点对新HSK来说,基本上不具有可操作性。如前所述,新HSK实施现状是:正式考试中使用的是未经预测、没有相关数据的试题;有相关数据的试题都是正式考试中使用过的;新HSK试题的使用是一次性的。
       退一步讲,即使通过预测或其他途径,获得了带有相关数据、未经正式考试使用的试题,因为新HSK属于高利害考试,还有如何应对题库试题重复使用、易曝光的问题。至于其他各种技术细节,也多处于科研、争鸣阶段,并无实证研究,更无试验结果。因此,新HSK鼓励相关研究,但不会在近期考虑在正式考试中采用基于题库的适应性考试。在未来较长一段时期内,新HSK仍以纸笔考试和计算机化考试为其考试形式。
 
五、实现适应性考试的新HSK题库建设应该往何处去
 
       三年来,新HSK笔试6个等级使用试卷已近180套(每等级近30套)。正常情况下,这些试题还将以每年50多套的速度持续增长。这些试题都有相关数据,除了其中一部分试卷用于出版真题集外,其他都没有被很好地加以利用。新HSK遵循“考教结合”的原则,目的是“以考促教”“以考促学”,提高考生的汉语交际能力。新HSK应该充分利用历年正式考试使用过的、数量较大、质量较高、带有相关参数的试题,以此为基础,建设服务于汉语教学、培训领域的题库,为分班、自测、辅助教学以及教学、培训成效评估等提供适应性考试系统。
       一方面,有了较容易获得的试题和试题数据,另一方面,这样的适应性考试系统将用于教学、培训低利害领域,基本上不存在操作障碍。这样的系统可以在教学、培训领域大显身手、发挥积极作用的同时,积累经验,总结教训,为将来取代纸笔考试、机网考做好前期科研准备。
       开发这样的考试系统,可以把新HSK一至六级的试题并入一个适应性考试,将考生粗略地划分为6个等级的水平;也可以针对每个等级设计适应性考试,对每一等级考生的水平进行更为细致的“刻画”。具体怎样设计,可结合教学、培训领域的实际需求,灵活处理。 
 
参考文献:
1.高升,题库建设中的试题沉积问题及其应对策略分析,中国考试,2010-3
2.教育部考试中心题库工作小组,谈教育考试国家题库建设,中国考试,2008-4
3.马世晔,题库理论与目前我国题库的发展状况,教育理论与实践,1996-1
4.漆书青,题库和题库的建设与应用,湖北招生考试,2002-10
5.谢小庆,网上模拟HSK考试系统和练习系统,考试研究文集(第4辑),2008
6.约瑟夫•M•瑞安,基于经典测量理论和项目反应理论的等值与连接(一),考试研究,2011-1
7.张晋军、张慧君、张铁英、符华均、黄贺臣,新汉语水平考试HSK(六级)试卷难度控制研究,中国考试,2012-11

新汉语水平考试(HSK)题库建设之我见 下载