小能在线客服

在线
咨询

在线咨询服务时间:9:00-17:30

服务
热线

010-59307634
010-59307662
仅限工作日

关注
微信

关注官方微信
顶部
新汉语水平考试HSK(六级)的性别公平性评估
[来 源]  汉考国际                [发表时间]  2013-03-01 00:00:00.0

新汉语水平考试(HSK)是一项国际汉语能力标准化考试,重点考查汉语非第一语言的考生在生活、学习和工作中运用汉语进行交际的能力。2009年11月,新HSK正式组织实施,很好地适应了汉语国际推广形势的需求,在海内外产生了积极的影响。目前,新HSK成绩已成为来华留学生在中国高校入学、毕业和申请奖学金的重要参考依据,同时也是相关企业和机构评价外籍工作人员汉语能力的重要标准。新HSK的评价结果关系到考生和成绩使用单位的切身利益,新HSK是否具有公平性就显得尤为重要。

目前,对考试公平性进行检验的常用方法是对考试进行项目功能差异(DIF,Differential item functioning)分析。本文拟从性别的角度评估HSK(六级)的公平性,采用DIF分析方法——MH法,通过对2011年HSK(六级)8次考试客观题的数据统计,来评估HSK(六级)的性别公平性。

 
一、HSK(六级)介绍
 

HSK(六级)是新HSK难度最高的等级,含101个题,其试卷结构信息见表1:

 表1
考试内容
试题数量(个)
考试时间(分钟)
听力
第一部分
15
50
约35
第二部分
15
第三部分
20
阅读
第一部分
10
50
50
第二部分
10
第三部分
10
第四部分
20
书写
读后缩写
1
45
共计
/
101
约130
 

HSK(六级)书写为主观题,本文只对听力、阅读客观题做统计分析。

 
二、MH法(Mantel- Haenszel Procedure)介绍
 

MH法由曼特和汉森尔(Mantel & Haenszel, 1959)首先提出,霍兰德(Holland, 1985)以及霍兰德和赛伊尔(Holland & Thayer, 1988)把这种方法用于检测项目功能差异(Dorans & Holland, 1993)。MH法用于探查两极记分项目的DIF,它关心的是目标组与参照组之间的差异,考试总分被作为匹配变量的指标。

美国教育考试服务中心(ETS)在DIF分析实践中,在αMH的基础上,发展出了 MH。ETS根据 MH值的大小,将试题分成三个等级:

等级A: MH绝对值小于1或与0没有显著差异(P<0.05),这类试题被视为具有很小的DIF或者无DIF,可以用于考试;

等级C: MH绝对值大于1.5,并且显著大于1.0(P<0.05),这类试题被视为具有严重的DIF,除非专家认为试题对考试至关重要,否则应被删除;

等级B:除了A和C的 MH,这类试题只有当A类试题不能满足考试的内容要求时,才能用于考试。

 
三、研究材料
 

2011年HSK(六级)8次考试考生共计36484人,具体信息见表2:

 
表2
卷号
男性
女性
合计
1440
2558
3998
2
1571
2664
4235
3
2022
3209
5231
4
1760
2650
4410
5
1279
2479
3758
6
967
1775
2742
7
1767
3119
4886
8
2643
4581
7224
合计
13449
23035
36484
 
四、研究设想
 

有研究表明,进行DIF分析,样本容量不应过少或过多,以1000人左右为佳。本文依此标准,从8次考试的男、女考生中各随机抽取1000人。其中,卷6的男性考生少于1000人,因此将全部967人作为DIF分析样本,女性考生仍随机抽取1000人。

本研究以男性考生为目标组,女性考生为参照组。分别以听力总分、阅读总分为匹配变量,对听力、阅读试题进行DIF分析。此外,本研究还将进行提纯(Purification)操作,本研究设置最大迭代次数为10。

本研究使用自编的DIF分析程序及SPSS16.0软件进行数据处理。

 
五、统计结果
 

8套试题按卷分类,试题DIF分析结果见表3:

 
表3
卷号
题数
A
利于男性
利于女性
合计
B
C
B
C
1
100
98
2
 
 
 
2(2%)
2
100
96
1
 
2
1
4(4%)
3
100
98
2
 
 
 
2(2%)
4
100
96
1
1
2
 
4(4%)
5
100
98
 
 
2
 
2(2%)
6
100
95
3
 
2
 
5(5%)
7
100
95
2
 
3
 
5(5%)
8
100
98
2
 
 
 
2(2%)
合计
800
774
13
1
11
1
26(3.3%)
 

通过表3可以看出,各卷A级试题占绝大多数(95-98题);C级试题数量很少,8套试题中仅有两题,占总数的2.5‰;B、C两级试题占全部试题的3.3%。有利于男性考生和女性考生的试题数量基本平衡,800个试题中各有14和12题。

HSK(六级)听力、阅读共有7个题型,8套试题按题型分类,试题DIF分析结果见表4:
 
表4

 

题型
题数
利于男性
利于女性
合计
B
C
B
C
听力一
120
0
1
5
1
7(5.8%)
听力二
120
1
0
4
0
5(4.2%)
听力三
160
6
0
1
0
7(4.4%)
阅读一
80
0
0
0
0
0(0.0%)
阅读二
80
1
0
1
0
2(2.5%)
阅读三
80
1
0
0
0
1(1.3%)
阅读四
160
4
0
0
0
4(2.5%)
合计
800
13
1
11
1
26(3.3%)
 

通过表4可以看出,听力分测验B、C级试题比阅读分测验要多。

我们还对不同题型的 MH值进行了方差分析。结果显示,题型对 MH值的影响显著,F(6,793)=2.93,p<0.01;题型可以解释 MH值约2%的变异量。具体信息见表5:

 
表5
题型
题数
平均数
标准差
95%置信区间
F
听力一
120
-0.09
0.53
-0.18~0.01
2.93
0.02
听力二
120
0.02
0.49
-0.07~0.11
 
 
听力三
160
0.08
0.47
0.01~0.15
 
 
阅读一
80
-0.01
0.29
-0.07~0.06
 
 
阅读二
80
-0.05
0.38
-0.13~0.04
 
 
阅读三
80
0.03
0.36
-0.05~0.11
 
 
阅读四
160
0.09
0.42
0.03~0.16
 
 
全体
800
0.02
0.44
-0.01~0.05
 
 
                                       

通过表5可以看出,仅听力三和阅读四的 MH值平均数的95%置信区间不包含0,这两个题型可能略微有利于男性考生。800个试题的 MH值平均数为0.02,其95%置信区间包含0,说明HSK(六级)试题总体上不存在DIF。

 
六、结论
 

HSK(六级)试题有较为理想的性别公平性。800个试题中仅有两个题为C级,B、C两级试题只占全部试题的3.3%。试题存在DIF并不一定说明试题存在偏差,要了解这些试题是否存在偏差,还需要协同内容专家对其进行进一步的分析。

B、C级试题在不同题型上的分布差异较大,听力试题较阅读试题更容易出现DIF,应引起命题、拼卷人员的注意。

相对于其他题型,听力三和阅读四的共同点是,其语料的篇幅都较长。这两个题型可能有利于男性考生。

 
 
 
 
参考文献:
[1]戴家干,魏欣,刘复兴,教育考试公平性的基本理论研究[J],中国高教研究,2010,(8):27-29.
[2]董圣鸿,三种常用DIF 检测方法的比较研究[J],心理学探新,2001,(1):43-48.
[3] 卢雪梅,毛国楠,国中基本学力测验数学科之性别差异与差别试题功能(DIF)分析[J],教育实践与研究,2008,21(2):95-126.
[4] 任杰,谢小庆,中国少数民族考生与外国考生HSK成绩的公平性分析[J],心理学探新,2002,22(8):51-56.
[5] 张美生,马文颖,性别平等社会化:一个长期而艰难的过程[J],妇女研究论丛,2003,(1):5-9.
[6] 谢小庆,谢小庆教育测量论文集[C] ,北京:北京语言大学出版社,2012,86-94.
[7] 戴海琦,罗照盛,心理测量学[M],北京:高等教育出版社,2010,77-81.
[8] 国家汉办/孔子学院总部,新汉语水平考试大纲 HSK六级[M],北京:商务印书馆,2010,3-4.
[9] 漆书青,现代测量理论在考试中的应用[M] ,武汉:华中师范大学出版社,2003,381-384.
[10] Zwick,R., A Review of ETS Differential Item Functioning Assessment Procedures: Flagging Rules, Minimum Sample Size Requirements, and Criterion Refinement[R],N.J: Educational Testing Service,2012.

[11] Harris,A.M., & Carlton,S.T.,Patterns of gender differences on mathematics items on the SAT[J].Applied Measurement in Education, 1993,6(2):137-151.