新闻公告--汉语考试服务网

首页

新闻公告

考试介绍

考试报名

考点信息

模拟考试

考试规则

关于我们

新汉语水平考试HSK（六级）的性别公平性评估

[来　源] 汉考国际 [发表时间] 2013-03-01 00:00:00.0

新汉语水平考试（HSK）是一项国际汉语能力标准化考试，重点考查汉语非第一语言的考生在生活、学习和工作中运用汉语进行交际的能力。2009年11月，新HSK正式组织实施，很好地适应了汉语国际推广形势的需求，在海内外产生了积极的影响。目前，新HSK成绩已成为来华留学生在中国高校入学、毕业和申请奖学金的重要参考依据，同时也是相关企业和机构评价外籍工作人员汉语能力的重要标准。新HSK的评价结果关系到考生和成绩使用单位的切身利益，新HSK是否具有公平性就显得尤为重要。

目前，对考试公平性进行检验的常用方法是对考试进行项目功能差异（DIF，Differential item functioning）分析。本文拟从性别的角度评估HSK（六级）的公平性，采用DIF分析方法——MH法，通过对2011年HSK（六级）8次考试客观题的数据统计，来评估HSK（六级）的性别公平性。

一、HSK（六级）介绍

HSK（六级）是新HSK难度最高的等级，含101个题，其试卷结构信息见表1：

表1

考试内容		试题数量（个）		考试时间（分钟）
听力	第一部分	15	50	约35
	第二部分	15
	第三部分	20
阅读	第一部分	10	50	50
	第二部分	10
	第三部分	10
	第四部分	20
书写	读后缩写	1		45
共计	/	101		约130

HSK（六级）书写为主观题，本文只对听力、阅读客观题做统计分析。

二、MH法（Mantel- Haenszel Procedure）介绍

MH法由曼特和汉森尔（Mantel & Haenszel, 1959）首先提出，霍兰德（Holland, 1985）以及霍兰德和赛伊尔（Holland & Thayer, 1988）把这种方法用于检测项目功能差异（Dorans & Holland, 1993）。MH法用于探查两极记分项目的DIF，它关心的是目标组与参照组之间的差异，考试总分被作为匹配变量的指标。

美国教育考试服务中心（ETS）在DIF分析实践中，在αMH的基础上，发展出了 MH。ETS根据 MH值的大小，将试题分成三个等级：

等级A： MH绝对值小于1或与0没有显著差异（P<0.05），这类试题被视为具有很小的DIF或者无DIF，可以用于考试；

等级C： MH绝对值大于1.5，并且显著大于1.0（P<0.05），这类试题被视为具有严重的DIF，除非专家认为试题对考试至关重要，否则应被删除；

等级B：除了A和C的 MH，这类试题只有当A类试题不能满足考试的内容要求时，才能用于考试。

三、研究材料

2011年HSK（六级）8次考试考生共计36484人，具体信息见表2：

表2

卷号	男性	女性	合计
1	1440	2558	3998
2	1571	2664	4235
3	2022	3209	5231
4	1760	2650	4410
5	1279	2479	3758
6	967	1775	2742
7	1767	3119	4886
8	2643	4581	7224
合计	13449	23035	36484

四、研究设想

有研究表明，进行DIF分析，样本容量不应过少或过多，以1000人左右为佳。本文依此标准，从8次考试的男、女考生中各随机抽取1000人。其中，卷6的男性考生少于1000人，因此将全部967人作为DIF分析样本，女性考生仍随机抽取1000人。

本研究以男性考生为目标组，女性考生为参照组。分别以听力总分、阅读总分为匹配变量，对听力、阅读试题进行DIF分析。此外，本研究还将进行提纯（Purification）操作，本研究设置最大迭代次数为10。

本研究使用自编的DIF分析程序及SPSS16.0软件进行数据处理。

五、统计结果

8套试题按卷分类，试题DIF分析结果见表3：

表3

卷号	题数	A	利于男性		利于女性		合计
卷号	题数	A	B	C	B	C	合计
1	100	98	2				2（2%）
2	100	96	1		2	1	4（4%）
3	100	98	2				2（2%）
4	100	96	1	1	2		4（4%）
5	100	98			2		2（2%）
6	100	95	3		2		5（5%）
7	100	95	2		3		5（5%）
8	100	98	2				2（2%）
合计	800	774	13	1	11	1	26（3.3%）

通过表3可以看出，各卷A级试题占绝大多数（95-98题）；C级试题数量很少，8套试题中仅有两题，占总数的2.5‰；B、C两级试题占全部试题的3.3%。有利于男性考生和女性考生的试题数量基本平衡，800个试题中各有14和12题。

HSK（六级）听力、阅读共有7个题型，8套试题按题型分类，试题DIF分析结果见表4：

表4

题型	题数	利于男性		利于女性		合计
题型	题数	B	C	B	C	合计
听力一	120	0	1	5	1	7（5.8%）
听力二	120	1	0	4	0	5（4.2%）
听力三	160	6	0	1	0	7（4.4%）
阅读一	80	0	0	0	0	0（0.0%）
阅读二	80	1	0	1	0	2（2.5%）
阅读三	80	1	0	0	0	1（1.3%）
阅读四	160	4	0	0	0	4（2.5%）
合计	800	13	1	11	1	26（3.3%）

通过表4可以看出，听力分测验B、C级试题比阅读分测验要多。

我们还对不同题型的 MH值进行了方差分析。结果显示，题型对 MH值的影响显著，F（6,793）=2.93，p<0.01；题型可以解释 MH值约2%的变异量。具体信息见表5：

表5

题型	题数	平均数	标准差	95%置信区间	F
听力一	120	-0.09	0.53	-0.18~0.01	2.93	0.02
听力二	120	0.02	0.49	-0.07~0.11
听力三	160	0.08	0.47	0.01~0.15
阅读一	80	-0.01	0.29	-0.07~0.06
阅读二	80	-0.05	0.38	-0.13~0.04
阅读三	80	0.03	0.36	-0.05~0.11
阅读四	160	0.09	0.42	0.03~0.16
全体	800	0.02	0.44	-0.01~0.05

通过表5可以看出，仅听力三和阅读四的 MH值平均数的95%置信区间不包含0，这两个题型可能略微有利于男性考生。800个试题的 MH值平均数为0.02，其95%置信区间包含0，说明HSK（六级）试题总体上不存在DIF。

六、结论

HSK（六级）试题有较为理想的性别公平性。800个试题中仅有两个题为C级，B、C两级试题只占全部试题的3.3%。试题存在DIF并不一定说明试题存在偏差，要了解这些试题是否存在偏差，还需要协同内容专家对其进行进一步的分析。

B、C级试题在不同题型上的分布差异较大，听力试题较阅读试题更容易出现DIF，应引起命题、拼卷人员的注意。

相对于其他题型，听力三和阅读四的共同点是，其语料的篇幅都较长。这两个题型可能有利于男性考生。

参考文献：

[1]戴家干,魏欣,刘复兴,教育考试公平性的基本理论研究[J],中国高教研究,2010,(8):27-29.

[2]董圣鸿,三种常用DIF 检测方法的比较研究[J],心理学探新,2001,(1):43-48.

[3] 卢雪梅,毛国楠，国中基本学力测验数学科之性别差异与差别试题功能（DIF）分析[J],教育实践与研究,2008,21(2):95-126.

[4] 任杰,谢小庆,中国少数民族考生与外国考生HSK成绩的公平性分析[J],心理学探新，2002,22(8):51-56.

[5] 张美生,马文颖,性别平等社会化：一个长期而艰难的过程[J],妇女研究论丛，2003,(1):5-9.

[6] 谢小庆,谢小庆教育测量论文集[C] ,北京:北京语言大学出版社,2012,86-94.

[7] 戴海琦,罗照盛,心理测量学[M],北京:高等教育出版社,2010,77-81.

[8] 国家汉办/孔子学院总部,新汉语水平考试大纲 HSK六级[M],北京:商务印书馆,2010,3-4.

[9] 漆书青,现代测量理论在考试中的应用[M] ,武汉:华中师范大学出版社,2003,381-384.

[10] Zwick,R., A Review of ETS Differential Item Functioning Assessment Procedures: Flagging Rules, Minimum Sample Size Requirements, and Criterion Refinement[R],N.J: Educational Testing Service,2012.

[11] Harris,A.M., & Carlton,S.T.,Patterns of gender differences on mathematics items on the SAT[J].Applied Measurement in Education, 1993,6(2):137-151.