新汉语水平考试(HSK)笔试分6个等级,HSK(六级)是难度最高的等级。
新HSK每年在全球举办8至9次考试,HSK(六级)不同次考试使用的试卷之间需要等值。对新HSK而言,传统的“铆题”和“铆人”的等值方法都不可行。新HSK试题的使用是一次性的,因此,“共同题等值法”无用武之地;“共同组等值法”也因缺少可操作性,一直未能派上用场。
至于“分半组合的混合设计”,我们也不赞成。因为:首先,它“伤害”了试卷。将标准卷一分为二,将新试卷一分为二,然后两两组合成两套等值新卷,这种做法,会破坏新试卷内容、考查点、难度等方面的设计,忽视了拼卷人员付出的心血,没有把一套精心编制的试卷视为一个有机统一整体,一定程度上会损害试卷的质量;其次,对考生也有较大影响。同一次考试,大部分考生作答新试卷,还有两个考生群体分别作答两套等值新卷中的一套。如果这两个考生群体对此并不知情,那是对考生的不尊重;如果提前告知考生,考生不会踊跃参加,有操作上的难度。同一次考试,考生被分为三个群体,使用三个版本的试卷,有违标准化考试的“标准化”理念,也不可取。第三,“分半组合的混合设计”仍属“共同题等值”设计,仍要“铆题”,“铆”以前使用过的试题。
通过研究,我们发现,新HSK可以尝试使用“平均分等值法”来进行等值。其假设是,在每次考试有足够数量、足够代表性考生的前提下,不同次考试考生群体的汉语水平相同。基于这个假设,如果某次考试听力平均分偏高,意味着听力分测验可能偏易,需要减分;如果阅读平均分偏低,意味着阅读分测验可能偏难,需要加分。各分测验究竟加分还是减分,调整幅度多大,由工作人员参考相关数据,集体讨论确定。
本文就是依据这一假设,为HSK(六级)设计的等值方案。该方案将在2013年正式考试中付诸实践。该方案同样适用于新HSK其他等级的考试。
一、相关数据
2010至2012年,HSK(六级)共举办25次考试,使用试卷25套。我们统计了每次考试的考生数量、听力平均分、阅读平均分、听读平均分之差。HSK(六级)听力、阅读满分均为50。本文使用的分数均为原始分。具体信息见表1:
表1
年度 | 卷号 | 考生数量 | 听力平均分 | 阅读平均分 | 听读平均分之差 |
2010 | 1 | 3482 | 37.373 | 29.35 | 8.023 |
2 | 950 | 38.738 | 34.008 | 4.73 |
3 | 4131 | 37.013 | 32.755 | 4.258 |
4 | 2743 | 32.304 | 28.038 | 4.266 |
5 | 2758 | 35.419 | 33.198 | 2.221 |
6 | 2915 | 35.35 | 33.608 | 1.742 |
7 | 2714 | 36.963 | 33.37 | 3.593 |
8 | 1049 | 38.939 | 35.308 | 3.631 |
9 | 4149 | 35.391 | 31.762 | 3.629 |
2011 | 10 | 3997 | 34.607 | 32.157 | 2.45 |
11 | 4235 | 39.357 | 34.177 | 5.18 |
12 | 5231 | 36.618 | 30.983 | 5.635 |
13 | 4410 | 40.599 | 34.341 | 6.258 |
14 | 3758 | 37.418 | 32.317 | 5.101 |
15 | 2742 | 38.264 | 31.026 | 7.238 |
16 | 4886 | 37.639 | 30.634 | 7.005 |
17 | 7224 | 34.36 | 33.087 | 1.273 |
2012 | 18 | 5662 | 35.605 | 30.807 | 4.798 |
19 | 6226 | 37.93 | 33.038 | 4.892 |
20 | 5901 | 36.888 | 33.531 | 3.357 |
21 | 4412 | 36.626 | 32.519 | 4.107 |
22 | 4211 | 35.467 | 33.029 | 2.438 |
23 | 3987 | 35.53 | 33.089 | 2.441 |
24 | 5075 | 37.194 | 32.301 | 4.893 |
25 | 8108 | 36.453 | 31.462 | 4.991 |
25次考试考生数量共计104956,听力平均分的均值为36.722,阅读平均分的均值为32.396,听读平均分之差的均值为4.326。听力、阅读平均分曲线如图1所示:
图1
去除第4、8、13卷(4卷听力、阅读平均分最低,8卷阅读平均分最高,13卷听力平均分最高),22次考试考生数量共计96754,听力平均分的均值为36.646,阅读平均分的均值为32.373,听读平均分之差的均值为4.273。听力、阅读平均分曲线如图2所示:
图2
HSK(六级)考生中,韩国考生(在韩国参加考试的考生,下同)占较大比例。上述25次考试中,韩国承办了其中的23次考试,第2、8卷未在韩国使用。我们统计了每次考试韩国考生的数量、占全球考生总数比例、听力平均分、阅读平均分、听读平均分之差。具体信息见表2:
表2
年度 | 卷号 | 考生数量 | 占全球考生总数比例 | 听力平均分 | 阅读平均分 | 听读平均分之差 |
2010 | 1 | 2823 | 81% | 37.105 | 28.786 | 8.319 |
3 | 2198 | 53% | 35.633 | 30.854 | 4.779 |
4 | 1692 | 62% | 32.037 | 27.985 | 4.052 |
5 | 2318 | 84% | 34.905 | 32.624 | 2.281 |
6 | 2298 | 79% | 35.395 | 33.479 | 1.916 |
7 | 1763 | 65% | 36.600 | 32.965 | 3.635 |
9 | 2373 | 57% | 35.569 | 31.750 | 3.819 |
2011 | 10 | 2937 | 74% | 34.301 | 32.064 | 2.237 |
11 | 1439 | 34% | 38.635 | 32.837 | 5.798 |
12 | 2193 | 42% | 36.189 | 30.541 | 5.648 |
13 | 1589 | 36% | 38.694 | 32.458 | 6.236 |
14 | 3149 | 84% | 37.044 | 31.887 | 5.157 |
15 | 2149 | 78% | 38.077 | 31.025 | 7.052 |
16 | 2046 | 42% | 35.997 | 28.471 | 7.526 |
17 | 2474 | 34% | 33.955 | 33.068 | 0.887 |
2012 | 18 | 3464 | 61% | 35.288 | 30.283 | 5.005 |
19 | 1646 | 26% | 36.988 | 32.108 | 4.88 |
20 | 2413 | 41% | 36.093 | 33.060 | 3.033 |
21 | 1755 | 40% | 36.936 | 32.723 | 4.213 |
22 | 3183 | 76% | 35.103 | 32.615 | 2.488 |
23 | 2286 | 57% | 34.666 | 31.834 | 2.832 |
24 | 2025 | 40% | 34.883 | 29.506 | 5.377 |
25 | 2708 | 33% | 35.670 | 30.611 | 5.059 |
23次考试韩国考生数量共计52921。听力平均分的均值为35.903,阅读平均分的均值为31.458,听读平均分之差的均值为4.445。
去除第4、6、13卷(4卷听力、阅读平均分最低,6卷阅读平均分最高,13卷听力平均分最高),20次考试考生数量共计47342,听力平均分的均值为35.982,阅读平均分的均值为31.481,听读平均分之差的均值为4.501。如图3所示:
图3
我们还统计了25次考试每次考试非韩国考生(在韩国之外参加考试的考生,下同)的数量、听力平均分、阅读平均分、听读平均分之差。具体信息见表3:
表3
年度 | 卷号 | 考生数量 | 听力平均分 | 阅读平均分 | 听读平均分之差 |
2010 | 1 | 659 | 38.521 | 31.766 | 6.755 |
2 | 950 | 38.738 | 34.008 | 4.730 |
3 | 1933 | 38.582 | 34.917 | 3.666 |
4 | 1051 | 32.734 | 28.123 | 4.611 |
5 | 440 | 38.127 | 36.222 | 1.905 |
6 | 617 | 35.182 | 34.088 | 1.094 |
7 | 951 | 37.636 | 34.121 | 3.515 |
8 | 1049 | 38.939 | 35.308 | 3.631 |
9 | 1776 | 35.153 | 31.778 | 3.375 |
2011 | 10 | 1060 | 35.455 | 32.415 | 3.040 |
11 | 2796 | 39.729 | 34.867 | 4.862 |
12 | 3038 | 36.928 | 31.302 | 5.626 |
13 | 2821 | 41.672 | 35.402 | 6.270 |
14 | 609 | 39.352 | 34.540 | 4.811 |
15 | 593 | 38.942 | 31.030 | 7.912 |
16 | 2840 | 38.822 | 32.192 | 6.630 |
17 | 4750 | 34.571 | 33.097 | 1.474 |
2012 | 18 | 2198 | 36.105 | 31.633 | 4.472 |
19 | 4580 | 38.269 | 33.372 | 4.896 |
20 | 3488 | 37.438 | 33.857 | 3.581 |
21 | 2657 | 36.421 | 32.384 | 4.037 |
22 | 1028 | 36.594 | 34.311 | 2.283 |
23 | 1701 | 36.691 | 34.776 | 1.916 |
24 | 3050 | 38.728 | 34.157 | 4.572 |
25 | 5400 | 36.846 | 31.889 | 4.957 |
25次考试非韩国考生数量共计52035。听力平均分的均值为37.447,阅读平均分的均值为33.262,听读平均分之差的均值为4.185。
去除第4、5、13卷(4卷听力、阅读平均分最低,5卷阅读平均分最高,13卷听力平均分最高),22次考试考生数量共计47723,听力平均分的均值为37.438,阅读平均分的均值为33.264,听读平均分之差的均值为4.174。如图4所示:
图4
二、等值过程
HSK(六级)新的考试结束后,按以下步骤进行等值调整:
1.扫卡,获得本次考试全体考生的听力、阅读作答数据。
2.统计本次考试全体考生、韩国考生、非韩国考生的听力平均分、阅读平均分、听读平均分之差。
3.结合本次考试考生构成具体信息,对本次考试数据与三年平均数据进行比较,确定本次考试听力、阅读平均分加分或减分幅度。
未来某次考试,如果韩国考生占较大比例,主要参考图3所示标准;反之,主要参考图4所示标准。图2所示标准则为辅助标准。
以2011年第10、15卷数据为假想新卷数据:第10卷全球考生3997人,韩国考生2937人(占全球考生74%),韩国考生听力平均分为34.301,阅读平均分为32.064,听读平均分之差为2.237;第15卷全球考生2742人,韩国考生2149人(占全球考生78%),韩国考生听力平均分为38.077,阅读平均分为31.025,听读平均分之差为7.052。
考虑到这两卷韩国考生占较大比例,因此主要参考图3所示数据。将这两卷数据放入图3所示数据中进行比较,结果如图5所示:
图5
按照“平均分等值法”思路,第10卷可以考虑将每个考生的听力原始分上调1分,听力平均分由此上调至35.301;将每个考生的阅读原始分下调1分,阅读平均分由此下调至31.064;听读平均分之差变为4.237。第15卷可以考虑将每个考生的听力原始分下调2分,听力平均分由此下调至36.077;将每个考生的阅读原始分保持不变,阅读平均分31.025保持不变;听读平均分之差变为5.052。结果如图6所示:
图6
再以2011年第17卷、2012年第25卷数据为假想新卷数据:第17卷全球考生7224人,韩国考生2474人(占全球考生34%),非韩国考生听力平均分为34.571,阅读平均分为33.097,听读平均分之差为1.474;第25卷全球考生8108人,韩国考生2708人(占全球考生33%),非韩国考生听力平均分为36.846,阅读平均分为31.889,听读平均分之差为4.957。
考虑到这两卷非韩国考生占较大比例,因此主要参考图4所示数据。将这两卷数据放入图4所示数据中进行比较,结果如图7所示:
图7
按照“平均分等值法”思路,第17卷可以考虑将每个考生的听力原始分上调2分,听力平均分由此上调至36.571;将每个考生的阅读原始分保持不变,阅读平均分33.097保持不变;听读平均分之差变为3.474。第25卷可以考虑将每个考生的听力原始分保持不变,听力平均分36.846保持不变;将每个考生的阅读原始分上调1分,阅读平均分由此上调至32.889;听读平均分之差变为3.957。结果如图8所示:
图8
三、其他
“平均分等值法”属于“共同组等值”设计。
在听力平均分均值线和阅读平均分均值线的确定上,“平均分等值法”有两种选择。一是将其固定,比如选择近三年所有考试,获得听力、阅读平均分均值线,今后的考试围绕这两条均值线做调整。二是将其动态化,每次考试都围绕之前所有考试形成的均值线做调整。我们选择了前者。
相关标准可维持5-10年不变。这期间,可持续监测历年相关原始分数据。5-10年后,如果数据发生了较大变化,可选择新的数据,确立、使用新的标准。
过去有一种观点:等值适用于听力理解、阅读理解等客观题,书面表达、口语表达等主观题的等值,则靠的是评分员对评分标准的把握,靠的是评分员的素质,靠的是评分员队伍的建设;有一支好的评分员队伍,评分员的素质有保证,评分员能按照既定标准进行评分,所给分数就是等值的。这种观点不无道理,它正视主观题评分主观性强的弊端,突出强调了评分员队伍建设的重要性。但正如不能因为命题、拼卷人员经验丰富,就不对客观题进行等值,我们也不能因评分员素质高,就不对主观题进行等值处理。何况,建设一支高素质的评分员队伍绝非易事。因此,新HSK对书面表达、口语表达主观题也进行等值,也采取平均分等值法进行等值。
参考文献:
[1] 谢小庆,考试分数等值的新框架,考试研究,2008-2
[2] 张晋军,张慧君,张铁英,符华均,黄贺臣,新汉语水平考试HSK(六级)试卷难度控制研究,中国考试,2012-11
[3] 张晋军,新汉语水平考试(HSK)题库建设之我见,http://blog.sina.com.cn/s/blog_53e7c11d0101c5vv.html
新汉语水平考试HSK(六级)平均分等值法实施方案 下载