新闻公告--汉语考试服务网

首页

新闻公告

考试介绍

考试报名

考点信息

模拟考试

考试规则

关于我们

对第二语言考试分数解释问题的比较研究

[来　源] 汉考国际 [发表时间] 2013-12-26 00:00:00.0

参加一项第二语言考试，考生一般都会得到一份成绩报告，其中包括听力、阅读、书写、口语分数及一个总分。要正确理解这些分数的意义，需要先了解考试的分数解释体系。不同的考试提供了不同的分数解释体系，要比较研究第二语言考试的分数解释体系，我们可以先看看几个知名的第二语言考试是怎么做的。

一、托福（TOEFL）的分数解释体系

托福只有一个考试，分阅读、听力、口语、写作4个分测验，阅读含36-56个试题，听力含34-51个试题，口语含6个试题，写作含两个试题。分测验满分均为30，总分为120。托福的成绩报告上提供了考生的4个分测验分数及总分。怎样解释这些分数？

首先，托福根据分测验成绩的高下，将每个分测验分为三至4个等级，但未对总分做等级划分，具体信息见表1。

表1

	水平等级
阅读（0-30）	High（高级，22-30分）
	Intermediate（中级，15-21分）
	Low（低级，0-14分）
听力（0-30）	High（高级，22-30分）
	Intermediate（中级，15-21分）
	Low（低级，0-14分）
口语（0-30）	Good（良好，26-30分）
	Fair（一般，18-25分）
	Limited（有限，10-17分）
	Weak（差，0-9分）
写作（0-30）	Good（良好，24-30分）
	Fair（一般，17-23分）
	Limited（有限，1-16分）
总分（0-120）

其次，托福针对每个分测验的各个等级提供了相应的“能力描述”（Your Performance）。例如，阅读High（高级，22-30 分）的能力描述为：

具有很高的阅读理解能力，能够读懂很难的英文学术类文章。通常：

• 掌握大量学术词汇，熟悉语法结构；

• 能够理解复杂的文章，根据上下文做出恰当推理、综合判断；

• 能够把握复杂文章的篇章结构及某些特定信息在全篇中的作用；

• 能够提炼复杂文章的主要观点。

另外，托福还将口语每个等级的能力描述细分为三类（熟悉的话题、校园环境、学术课程）；将写作每个等级的能力描述细分为两类（基于读与听的写作、基于知识与经验的写作）。

托福明确规定：“不设通过或未通过分数；各高等教育机构及组织自行设定分数要求。”

二、托业（TOEIC）的分数解释体系

托业分听力阅读、口语写作两个独立的考试。前者分听力、阅读两个分测验，各100个试题。分测验分数区间为5-495分，全卷分数区间为10-990分。后者分口语、写作两个分测验，口语含11个试题，写作含8个试题。分测验分数区间为0-200分，全卷分数区间为0-400分。

为解释这些分数，托业将4个分测验的成绩分成三至9个等级，具体信息见表2。

表2

	听力	阅读	口语	写作
1	200左右	150左右	0-30	0-30
2	300左右	250左右	40-50	40
3	400左右	350左右	60-70	50-60
4		450左右	80-100	70-80
5			110-120	90-100
6			130-150	110-130
7			160-180	140-160
8			190-200	170-190
9				200

托业也为各分测验的不同等级提供了相应的能力描述。例如，口语5级（110-120）的能力描述为：

在表达观点或应对复杂提问时水平有限。他们的应对通常有如下问题：

• 用语不准确、模糊或重复；

• 很少或根本没有在意谈话对象的反应；

• 频繁停顿，有长时间的停顿；

• 缺乏条理，表达观点的能力有限；

• 词汇量有限。

大多时候能回答问题并给出基本信息。但是有时候他们的回答让人难以理解。

听他们朗读时，可以理解朗读的内容。然而他们在自己组织话语时，发音、语调和重音问题很多。

此外，托业在听力、阅读各等级的能力描述中，不仅提供了“能做”什么的描述，还提供了“不能做”什么的描述；在听力成绩栏，用图例的形式提供了考生在完成4类试题时的答对比例；在阅读成绩栏，用图例的形式提供了考生在完成5类试题时的答对比例；在口语成绩栏，提供了对考生发音和语调、重音的评价。

与托福一样，托业也未对总分做等级区分；也明确规定：“托业考试没有设置通过线，没有及格与不及格之分……考生究竟要达到什么分数才算合格，完全取决于他/她期望供职机构的职位要求。”

三、雅思（IELTS）的分数解释体系

雅思（学术）只有一个考试，分听力、阅读、写作、口语4个分测验，听力、阅读各40个试题，写作含两个试题，口语则采用面试形式。雅思的“考试成绩记录在成绩单上，包括一个总分，及听力、阅读、写作和口语4个单项分，考生的考试成绩采用1-9分的评分制来测评，4个项目独立记分，最后所得成绩取4项成绩的平均值。总分和4个单项分均允许半分。”

雅思为每个分数提供了对应的能力描述。例如，7分（良好水平）：能有效运用英语，虽然偶尔出现不准确、不适当和误解。大致可将复杂的英语掌握得不错，也能理解详细的推理。4分（有限水平）：只限在熟悉的状况下有基本的理解力，在理解与表达上常发生问题，无法使用复杂英语。

需要说明的是，这9个能力描述对听力、阅读、写作、口语及总分是通用的，这明显不同于托福、托业。另外，雅思也未设合格线。

四、大学英语四、六级考试（CET）的分数解释体系

大学英语四、六级考试分三个考试：四级笔试（CET-4）、六级笔试（CET-6）和四、六级口试（CET-SET）。两个笔试都分写作、听力、阅读、翻译4个分测验，写作含一个试题，听力含35个试题，阅读含30个试题，翻译含一个试题。四、六级笔试成绩报告上提供听力、阅读、翻译和写作（翻译和写作合为一个分数）三个单项分和总分。总分均为710，总分为分测验分数之和，但分测验的满分却不相同，大致是听力249、阅读249、翻译和写作212。它体现了四、六级笔试合成总分的特殊考虑，即总分中，听力占35%、阅读占35%、翻译和写作占30%。四、六级口试采用面试形式。总分为 15 分，根据分数高低分为A、B、C、D4个等级。大学英语四、六级考试不设及格线。

为解释四、六级笔试分数，考试设计者建立了两个常模，四级的常模群体选自全国16所高校的约三万名非英语专业的考生；六级常模群体选自全国5所重点大学的约5000名非英语专业的考生。这样，每个考生的分数在常模群体中就有了一个相应的百分位位置。例如，某考生四级总分为450，“其在常模群体中的相应百分位是25%，表示这名考生的英语成绩优于常模群体中25%的人，但劣于75%的人。”又如，某考生四级听力分数为140，“其在常模群体中的相应百分位在12%，表示这名考生的听力成绩优于常模群体中12%的人。”

四、六级口试则未建立常模，只为A、B、C、D4个等级提供了4个能力描述，具体信息见表3。

表3

等级	分数	能力描述
A+	14.5-15	能用英语就熟悉的题材进行口头交际，基本上没有困难。
A	13.5-14.4	能用英语就熟悉的题材进行口头交际，基本上没有困难。
B+	12.5-13.4	能用英语就熟悉的题材进行口头交际，虽有些困难，但不影响交际。
B	11-12.4	能用英语就熟悉的题材进行口头交际，虽有些困难，但不影响交际。
C+	9.5-10.9分	能用英语就熟悉的题材进行简单的口头交际。
C	8-9.4	能用英语就熟悉的题材进行简单的口头交际。
D	7.9 以下	尚不具有英语口头交际能力。

五、新汉语水平考试（HSK）的分数解释体系

新HSK分9个考试，笔试和口试相互独立，笔试分6个考试，口试分三个考试。新HSK各等级试题数量不等，具体信息见表4。

表4

新HSK		听力	阅读	书写	口语	总计
笔试	HSK（一级）	20	20	/		40
	HSK（二级）	35	25	/		60
	HSK（三级）	40	30	10	/	80
	HSK（四级）	45	40	15	/	100
	HSK（五级）	45	45	10	/	100
	HSK（六级）	50	50	1	/	101
口试	HSK（初级）	/			27	27
	HSK（中级）	/			14	14
	HSK（高级）	/			6	6

新HSK各等级的分测验满分都是100，总分则因分测验数量不同而各不相同，具体信息见表5。

表5

新HSK		听力	阅读	书写	口语	总分
笔试	HSK（一级）	100	100	/		200
	HSK（二级）	100	100	/		200
	HSK（三级）	100	100	100	/	300
	HSK（四级）	100	100	100	/	300
	HSK（五级）	100	100	100	/	300
	HSK（六级）	100	100	100	/	300
口试	HSK（初级）	/			100	100
	HSK（中级）	/			100	100
	HSK（高级）	/			100	100

为解释这些分数，新HSK为每个等级提供了一个能力描述。例如，HSK（五级）：能阅读汉语报刊杂志，欣赏汉语影视节目，用汉语做较为完整的演讲。又如，HSK（中级）：可以听懂并用汉语较为流利地与汉语为母语者进行交流。此外，新HSK还为笔试各等级建立了常模，为考生的分数提供了常模参照；新HSK口试则尚未提供常模参照。

同雅思一样，新HSK的能力描述通用于分测验分数及总分。假设某考生HSK（五级）的成绩为：听力89、阅读76、书写71、总分236。其标准参照解释为：该考生听力、阅读、书写、总分水平分别达到了HSK（五级）能力标准的89%、76%、71%、79%；其常模参照解释则为：在HSK（五级）常模样组中，该考生听力、阅读、书写、总分水平分别高于80%、70%、70%、77%的考生（可从百分等级对照表中查找相关信息）。

新HSK于2009年推出，笔试一至二级设总分120为合格线；笔试三至六级设总分180为合格线；口试三个等级设60为合格线。2013年2月起，新HSK取消了五级、六级的合格线。

六、关于标准参照和常模参照

通过比较可以看出，托福、托业、雅思、四、六级口试和新HSK口试提供了标准参照；四、六级笔试提供了常模参照；新HSK笔试则同时提供了标准参照和常模参照。

其实，四、六级笔试也可以提供标准参照解释，因为大学英语四级考试参照《大学英语课程教学要求》中规定的“一般要求”而设计，六级参照《教学要求》中规定的“较高要求”而设计，这“两个要求”就是大学英语四、六级考试的能力标准。四、六级考试自称“是标准相关——常模参照的标准化考试”，“标准相关体现在：1）试卷各部分的设计和命题参照《教学要求》规定的技能和标准；2）写作和翻译部分的阅卷依据评分原则和标准。”反倒有生造概念、扰乱视听之嫌。因为，无论《教学要求》规定的技能和标准，还是写作和翻译部分的评分标准，以及口试的能力描述，都基于“两个要求”而来。其分数完全可以以此为依据提供标准参照解释，而非定性为所谓的“标准相关”，进而不为笔试成绩提供标准参照解释。

提供标准参照，是拿考生已掌握的知识和技能与规定的“知识和技能标准”做比较，告诉考生所达到的水平；提供常模参照，则是拿考生与常模样组中的其他人做比较，告诉考生所处的位置。笔者认为，一项大规模的第二语言考试应该同时提供标准参照和常模参照，为考试用户提供更为丰富的分数解释信息。

七、关于单标准参照和多标准参照

比较新HSK与托福、托业、雅思、四、六级口试，可以发现，虽然它们都提供了标准参照，却又不尽相同。以HSK（六级）为例，考生参加HSK（六级），只面对一个能力标准：“能用汉语自如地进行各种社会交际活动，汉语应用水平接近汉语为母语者。”对考生分数的解释，是达到了这一能力标准的百分比。而其它考试不同于此，考生参加这些考试，面对多个能力描述。解释考生成绩的方法是，依据考生的成绩，找到对应的能力描述，获得解释。

新HSK模式可称为“单标准参照模式”，其它考试模式可称为“多标准参照模式”。笔者以为，首先，与多标准参照模式比起来，单标准参照模式更容易操作，也更容易理解。其次，多标准参照模式中，那些能力描述在代表性、典型性、全面性、准确性方面总是值得商榷的，总是见仁见智的。在这里，概括的、一般的描述远比细致入微的描述更客观、更少争议。除了托业的听力和阅读分测验各含100个试题外，其它考试的分测验题量都没超过50个试题。通过考生在50个试题上的作答表现来间接推测考生的能力，对该能力的描述，不是无限度的。过分追求细致入微的能力描述，可能只是研发人员的一厢情愿，可信度不一定高。第三，众多能力描述的价值究竟有多大？以托福为例，各分测验满分为30，总分为120。考试用户看到成绩报告上的5个分数，已经对考生的水平有了一个直观的印象。根据托福设定的分数区间，对考生各项技能究竟是高级还是中级，是良好还是一般，可以有更清晰的判断。至于达到阅读中级水平能做什么、不能做什么，并没有太大意义。第四，一分之差，分属两个等级，不合理。仍以托福为例，听力考21分就是中级，22分就是高级，并没什么道理可讲，在这种情况下，那些能力描述就更显得缺乏根基了。

八、关于精度标准参照和跨度标准参照

仍以HSK（六级）为例，HSK（六级）面向特定考生群体，即汉语水平很高的考生群体，是精度考试。正确完成HSK（六级）全部交际任务（答对全部试题），就是HSK（六级）的能力标准，这是个很高的能力标准。HSK（六级）的分数参照这一能力标准进行解释，属于精度标准参照解释。

雅思主要满足欧美高校招生需求，它也面向英语水平很高的考生群体，也是精度考试。但是，难度很高的雅思在做分数解释时，却从“最多能说出个别单词，根本无法用英语沟通”，到“具有完全的英语运用能力，做到适当、精确、流利并能完全理解语言”，涵盖了从“不懂英语”到“专家水平”的所有英语学习者，则属于跨度标准参照了。这在逻辑上是有问题的。就像高中会考是高中的毕业考试，它是精度考试，给出的能力描述是优秀、良好、及格、不及格水平，是参照高中毕业水平而来的，是精度标准参照。如果它给出的能力描述是：高三、高二、高一、初三、初二、初一、小六、小三、小一水平等，那就是跨度标准参照了。

孰为精度孰为跨度，是相对的。为精度考试配精度标准参照，自然而然，为精度考试配跨度标准参照，则明显不合理。

九、关于分测验间的关系

第二语言考试多含若干分测验。上述考试中，托福分测验满分均为30，雅思均为9、新HSK均为100。托业和英语四、六级则不然，托业听力、阅读满分均为495，口语、写作满分均为200；四、六级听力、阅读满分均为249，翻译和写作满分为212，口语满分为15。

一项第二语言考试，其主要功能是刻画、描述考生的语言能力。笔者认为，首先，为方便了解，方便横向比较，4项技能的刻画尺度自然以统一为宜。其次，考试用户可以通过这些分数，直观地了解考生哪项技能强，哪项技能弱。考试设计者没必要主观地厚此薄彼，为不同的分测验分数设置不同的权重。因此，总分就以4个分测验分数简单相加之和为宜。

十、关于合格线和分界线

取消分数合格线，应该说已经成为共识。与合格线近似的一个概念是分界线，例如，托福规定听力22-30分为高级，15-21分为中级，0-14分为低级。这里的14、15、21、22分等都是分界线。首先，托福将听力30分分为高级、中级、低级三个等级，与经验判断相差无几，得高分者高级，得中等分数者中级，得低分者低级，一眼即可判断，这样的设计可有可无。其次，如前所述，14和15因为一分之差，就分处两个等级；0和14相差14分，却同处一级，这不合理。第三，分界线设得越多，一分之差分处两级的现象就越多。而“单标准参照”的“完成能力标准的百分比”的分数解释体系则不存在这些问题。

参考文献：

1．谢小庆，HSK的分数解释问题，《考试研究文集》第3辑，经济科学出版社，2006年

2．张晋军，新HSK为什么要取消合格线，http://blog.sina.com.cn/s/blog_53e7c11d0101knwg.html

3．张泉慧，张晋军，符华均，新HSK分数是怎样处理的，http://blog.sina.com.cn/s/blog_53e7c11d0101kro7.html