新汉语水平考试(HSK)是一项国际汉语能力标准化考试,重点考查汉语非第一语言的考生在生活、学习和工作中运用汉语进行交际的能力。2009年11月,新HSK正式组织实施,很好地适应了汉语国际推广形势的需求,在海内外产生了积极的影响。目前,新HSK成绩已成为来华留学生在中国高校入学、毕业和申请奖学金的重要参考依据,同时也是相关企业和机构评价外籍工作人员汉语能力的重要标准。新HSK的评价结果关系到考生和成绩使用单位的切身利益,新HSK是否具有公平性就显得尤为重要。
目前,对考试公平性进行检验的常用方法是对考试进行项目功能差异(DIF,Differential item functioning)分析。本文拟从性别的角度评估HSK(六级)的公平性,采用DIF分析方法——MH法,通过对2011年HSK(六级)8次考试客观题的数据统计,来评估HSK(六级)的性别公平性。
HSK(六级)是新HSK难度最高的等级,含101个题,其试卷结构信息见表1:
考试内容 | 试题数量(个) | 考试时间(分钟) | ||
听力 | 第一部分 | 15 | 50 | 约35 |
第二部分 | 15 | |||
第三部分 | 20 | |||
阅读 | 第一部分 | 10 | 50 | 50 |
第二部分 | 10 | |||
第三部分 | 10 | |||
第四部分 | 20 | |||
书写 | 读后缩写 | 1 | 45 | |
共计 | / | 101 | 约130 |
HSK(六级)书写为主观题,本文只对听力、阅读客观题做统计分析。
MH法由曼特和汉森尔(Mantel & Haenszel, 1959)首先提出,霍兰德(Holland, 1985)以及霍兰德和赛伊尔(Holland & Thayer, 1988)把这种方法用于检测项目功能差异(Dorans & Holland, 1993)。MH法用于探查两极记分项目的DIF,它关心的是目标组与参照组之间的差异,考试总分被作为匹配变量的指标。
美国教育考试服务中心(ETS)在DIF分析实践中,在αMH的基础上,发展出了 MH。ETS根据 MH值的大小,将试题分成三个等级:
等级A: MH绝对值小于1或与0没有显著差异(P<0.05),这类试题被视为具有很小的DIF或者无DIF,可以用于考试;
等级C: MH绝对值大于1.5,并且显著大于1.0(P<0.05),这类试题被视为具有严重的DIF,除非专家认为试题对考试至关重要,否则应被删除;
等级B:除了A和C的 MH,这类试题只有当A类试题不能满足考试的内容要求时,才能用于考试。
2011年HSK(六级)8次考试考生共计36484人,具体信息见表2:
卷号 | 男性 | 女性 | 合计 |
1440 | 2558 | 3998 | |
2 | 1571 | 2664 | 4235 |
3 | 2022 | 3209 | 5231 |
4 | 1760 | 2650 | 4410 |
5 | 1279 | 2479 | 3758 |
6 | 967 | 1775 | 2742 |
7 | 1767 | 3119 | 4886 |
8 | 2643 | 4581 | 7224 |
合计 | 13449 | 23035 | 36484 |
有研究表明,进行DIF分析,样本容量不应过少或过多,以1000人左右为佳。本文依此标准,从8次考试的男、女考生中各随机抽取1000人。其中,卷6的男性考生少于1000人,因此将全部967人作为DIF分析样本,女性考生仍随机抽取1000人。
本研究以男性考生为目标组,女性考生为参照组。分别以听力总分、阅读总分为匹配变量,对听力、阅读试题进行DIF分析。此外,本研究还将进行提纯(Purification)操作,本研究设置最大迭代次数为10。
本研究使用自编的DIF分析程序及SPSS16.0软件进行数据处理。
8套试题按卷分类,试题DIF分析结果见表3:
卷号 | 题数 | A | 利于男性 | 利于女性 | 合计 | ||
B | C | B | C | ||||
1 | 100 | 98 | 2 | 2(2%) | |||
2 | 100 | 96 | 1 | 2 | 1 | 4(4%) | |
3 | 100 | 98 | 2 | 2(2%) | |||
4 | 100 | 96 | 1 | 1 | 2 | 4(4%) | |
5 | 100 | 98 | 2 | 2(2%) | |||
6 | 100 | 95 | 3 | 2 | 5(5%) | ||
7 | 100 | 95 | 2 | 3 | 5(5%) | ||
8 | 100 | 98 | 2 | 2(2%) | |||
合计 | 800 | 774 | 13 | 1 | 11 | 1 | 26(3.3%) |
通过表3可以看出,各卷A级试题占绝大多数(95-98题);C级试题数量很少,8套试题中仅有两题,占总数的2.5‰;B、C两级试题占全部试题的3.3%。有利于男性考生和女性考生的试题数量基本平衡,800个试题中各有14和12题。
题型 | 题数 | 利于男性 | 利于女性 | 合计 | ||
B | C | B | C | |||
听力一 | 120 | 0 | 1 | 5 | 1 | 7(5.8%) |
听力二 | 120 | 1 | 0 | 4 | 0 | 5(4.2%) |
听力三 | 160 | 6 | 0 | 1 | 0 | 7(4.4%) |
阅读一 | 80 | 0 | 0 | 0 | 0 | 0(0.0%) |
阅读二 | 80 | 1 | 0 | 1 | 0 | 2(2.5%) |
阅读三 | 80 | 1 | 0 | 0 | 0 | 1(1.3%) |
阅读四 | 160 | 4 | 0 | 0 | 0 | 4(2.5%) |
合计 | 800 | 13 | 1 | 11 | 1 | 26(3.3%) |
通过表4可以看出,听力分测验B、C级试题比阅读分测验要多。
我们还对不同题型的 MH值进行了方差分析。结果显示,题型对 MH值的影响显著,F(6,793)=2.93,p<0.01;题型可以解释 MH值约2%的变异量。具体信息见表5:
题型 | 题数 | 平均数 | 标准差 | 95%置信区间 | F | |
听力一 | 120 | -0.09 | 0.53 | -0.18~0.01 | 2.93 | 0.02 |
听力二 | 120 | 0.02 | 0.49 | -0.07~0.11 | ||
听力三 | 160 | 0.08 | 0.47 | 0.01~0.15 | ||
阅读一 | 80 | -0.01 | 0.29 | -0.07~0.06 | ||
阅读二 | 80 | -0.05 | 0.38 | -0.13~0.04 | ||
阅读三 | 80 | 0.03 | 0.36 | -0.05~0.11 | ||
阅读四 | 160 | 0.09 | 0.42 | 0.03~0.16 | ||
全体 | 800 | 0.02 | 0.44 | -0.01~0.05 |
通过表5可以看出,仅听力三和阅读四的 MH值平均数的95%置信区间不包含0,这两个题型可能略微有利于男性考生。800个试题的 MH值平均数为0.02,其95%置信区间包含0,说明HSK(六级)试题总体上不存在DIF。
HSK(六级)试题有较为理想的性别公平性。800个试题中仅有两个题为C级,B、C两级试题只占全部试题的3.3%。试题存在DIF并不一定说明试题存在偏差,要了解这些试题是否存在偏差,还需要协同内容专家对其进行进一步的分析。
B、C级试题在不同题型上的分布差异较大,听力试题较阅读试题更容易出现DIF,应引起命题、拼卷人员的注意。
相对于其他题型,听力三和阅读四的共同点是,其语料的篇幅都较长。这两个题型可能有利于男性考生。
[11] Harris,A.M., & Carlton,S.T.,Patterns of gender differences on mathematics items on the SAT[J].Applied Measurement in Education, 1993,6(2):137-151.
京公网安备 11010202007018号