语言测试中的计量学原理
上QQ阅读APP看书,第一时间看更新

第一节 测试、测量、评估、评价

测试、测量、评估、评价,这是四个既有联系又有区别的基本概念,是必须分清楚的概念。

一 测试

本小节先尝试着定义“测试”,然后再讨论语言测试的名称与实质。

1.测试的定义

先举几个例子。在注射某些药物(如青霉素)之前,先要给病人(通常是手臂内侧)皮下注射一定量的药物,看病人是否对拟用药物有敏感反应。过一定时间后,如果注射部位有皮疹,就做出接受测试的对象(受测)对该药物过敏的推断,因此不能使用试验药物。如果注射部位没有皮疹反应,就做出受测对该药物不过敏的推断,因此可以使用试验药物。要检验一个人是否尿糖过高,可能患有糖尿病,可以把特制试纸的一端浸入接受测试的对象(受测)的尿液里一段时间,然后根据试纸的颜色变化情况来判断受试尿糖浓度的高低。同样,要检验特定水源水的酸碱度(pH值),也可以取少量的水样,把特制试纸的一端浸入水中一定时间,然后根据试纸颜色的变化来断定该水源水的酸碱度。一个供水系统或供气系统安装好之后,要进行加压测试。同样,高速铁路在投入正式运营之前,也要进行测试,而且测试的速度通常比正式运营时的速度要快很多。

分析一下这些例子就不难发现,所有的测试都涉及一个或几个标准,一旦达到或超过这个标准,就可以得出相应的结论。第二个发现是,同一种测试的条件都是标准化的,要么用同样的药剂、相同的时间,要么用同样的试纸,要么施加相同的压力,等等。第三个发现是,测试时的条件可能和常态时的条件相同,也可能不同。例如,测水的酸碱度时,就取正常的水;药物过敏试验的用药量就远小于正常用药时的量;测试供水供气系统时,气压或水压要明显高于正常供气供水时的压力。第四个发现是,下结论所根据的标准可能是定量的(如水压、气压、火车速度),也可能是定性的(如变色,出现皮疹)。

不难看出,在以上的四个发现中,第一个发现是最基本的,是测试的定义性特征。

作为测试的一个种类,语言测试也需要根据特定的标准,而且该标准既可以是定性的,也可以是定量的。到底使用何种标准,这要由决策的内容或性质决定。如果是判断受测是否能听懂或读懂一点某种语言的材料,定性的标准就可以了;如果要判断受测在多大程度上能听懂或读懂某种语言的材料,一般需要定量标准。尽管如此,在语言测试中,通常用的都是定量标准。而且,由于语言测试的对象通常是具有一定心理的人,所用的刺激材料也几乎不是自然的语言材料,测试的环境也很难是自然的真实语言使用情景,所以测试结果的不确定性难免会很高。

根据以上的讨论,我们可以试着给测试先下个定义:测试就是给接受测试的对象(受测)在规定的条件下施加一定的刺激,然后根据受测对于特定刺激所做出的反应,参照事先设定好的标准,做出受测是否达到这个标准的结论。如果受测达到了标准,就说该受测具有某种(些)属性;如果达不到标准,就说受测不具有某种(些)属性。

2.语言测试的名与实

语言测试是英语language testing的翻译。这里的语言通常指第二语言或母语之外的语言,也包括外语;这里的测试通常指一个学科门类,也可以指一项活动、一组行动或一个过程,但不指一个项目。在语言学领域,语言测试是应用语言学的一个分支。同时,语言测试还是心理测验或教育测量的应用部门(参见Chalhoub-Deville & Deville,2006)。

心理测验的英语名称是psychological testing,汉语中也有人用心理测量或心理测量学(如郑日昌、蔡永红、周益群,1999;漆书青、戴海崎、丁树良,1998)。教育测量(学)的英语名称是educational measurement,也有用educational testing的,例如,1985年版、1999年版和2014年版的美国《教育和心理测验标准》(Standards for Educational and Psychological Testing)都用了testing一词,之前的标准用的是test一词。这里的measurement用词并不准确,实际上是testing(测试)之义。只不过,在汉语的心理学语境中,一般用“测验”,而不用“测试”。测验的意思是,根据测量结果进行检验。

严格地说,“测验”比“测试”更准确。为什么呢?这就涉及汉语中的检验和英语中的test一词。

先说汉语中的“检验”。这里的检验指的是统计检验,最常用的是其中的t检验(t-test)和z检验(z-test)。在包括语言测试在内的心理测验或教育测试中,根据分数对受测做出是否达标的推断,或者两个受测的分数是否显著不同的推断,或者受测甲的分数是否显著高于受测乙的分数的推断,这些都是明确的统计检验。

从统计检验的角度看,根据分数进行决策不仅必要,而且非常重要。其原因是,这样不仅有助于我们理解测试的本质,也有助于我们发现分数使用中的错误和问题。例如,在根据定量标准进行推断时,应该用t检验,但实践中通常用了z检验。至于为什么要用t检验而不应该用z检验,我们在第四章的“分数解释”部分再讨论。

现在再谈谈test一词。在英语中,test不仅有统计检验中的检验之义,还有两个用法与我们的讨论有关。一个用法是指考试或测试项目,另一个用法是指一组考试或测试用的刺激,即构成一套试卷的所有题目和说明文字的总称,如美国的托福考试、中国的大学英语(关于大学英语四、六级第一代考试的试卷构成和题型,参见杨惠中,Weir,1998)和英语专业考试(关于英语专业四、八级第一代考试的试卷构成和题型,参见邹申,1998)都是测试项目。前者的英语全称是Test of English as a Foreign Language[英语作为外语的考试],后两者的英语全称分别是College English Test[大学英语考试]和Test for English Majors[英语专业考试]。作为试卷意义上的test一词,在测试学中还有两个同义词:scale[量表]和inventory[清单]。

需要指出的是,无论是test、scale,还是inventory,严格说只是一组刺激,而不是测量工具或测量系统的全部,有时甚至都不是测量工具或系统的核心或关键。例如论述型题目、自由作文或语篇翻译,其中的评分标准、评分人或评分软件,在测量工具或测量系统中,都明显具有比题目更核心、更关键的作用。关于测量,本章第二节有专门讨论。在结束本小节前,我们需要对语言测试下一个更加完善的定义。

语言测试就是给受测在规定的条件下施加一定的刺激,然后根据受测对这些刺激所做出的反应,参照事先设定好的标准,做出受测是否达到这个标准的结论。如果受测达到了标准,就说该受测具有某种(些)语言属性;如果达不到标准,就说受测不具有某种(些)语言属性。或者对不同受测个体或团体进行比较。如果所定的标准是量,或者所做的是量的比较,那么,就要对受测对于刺激的反应结果加以量化,再使用量化结果以及结果的不确定性信息,对受测做出是否达到标准,或者是否有显著差异或显著强弱的统计推断

可见,如果所用的标准是量,或者所做的是量的比较,那么,测试就包括了测量。作为一门学科,语言测试不仅包括语言测量工具的开发和使用,还包括根据测量结果进行的统计决策以及关于决策后果的研究。但要进行统计决策,或者要控制决策的错误率,那不仅需要测量结果,还需要与测量结果相伴随的不确定度,即语言测试传统上所谓的误差或标准误。如果用t检验的语言讲就是,只知道分子上的信息而不知道分母上的信息,t值是求不出来的。

二 测量

汉语中的“测量”和英语中的measurement并不完全对应。前者只指一种过程,而后者不仅可以指过程,也可以指学科和结果。作为术语,在讨论计量问题时,测量最好只用过程这个意思。但不幸的是,在包括语言测试在内的心理和教育测量学的英语文献中,measurement在这三个意思上都用,经常使读者混淆。

1.测量的两个不同定义

根据国际标准化组织指南99:2007《国际计量学词汇——基础通用的概念和相关术语》[ISO/IEO Guide 99:2007 International Vocabulary of Metrology-Basic and General Concepts and Associated Terms(VIM)]2.1的定义,

测量是一个通过试验获得一个或多个量值的过程,该所获量值很可能就是一个量的值(Process of experimentally obtaining one or more quantity values that can reasonably be attributed to a quantity)。

但是,在社会测量文献中,一般都采用斯蒂文斯(Stevens,1946,p.677)对测量的定义,即

从最广泛的意义上讲,测量就是根据规则给物体或事件赋数(Measurement,in the broadest sense,is defined as assignment of numerals to objects or events according to rules)。

这个原本引自英国物理学家兼科学哲学家坎贝尔(Norman Robert Campbell)的定义,把社会测量远远隔离在计量学之外,而且,使得社会测量至今也未能满足基本测量的必要条件(Resse,2017)。

2.两个不同定义的解读与比较

ISO/IEO Guide 99:2007的定义看似简单,实际上并不简单。在VIM 2.1中,测量是在定义了量值(也叫量的值或量)之后才定义的,而且后面还附了三条注解。

第1条注解就指出,测量不适用称名属性(Measurement does not apply to nominal properties)。这一条,就已经把社会测量(包括心理和教育测量)区分出来。因为,根据斯蒂文斯(实为坎贝尔)的定义,测量是适用于称名属性的。对比坎贝尔对测量的定义和VIM 2.1的定义不难发现两者之间的两个差别:VIM 2.1定义所测量的是“量”,坎贝尔定义所测量的是“事物”或“事件”;VIM定义测量的结果是“量”,坎贝尔定义测量的结果是“数”。“量”包含了数,是数和单位或参照系的组合。但单纯的“数”并不能构成量。量化不是数化,量化的核心和基础不是数,而是单位或参照系。

VIM 2.1对测量定义的第2条注解的意思:测量隐含了对多个量的比较,测量包括了对实物的计数(Measurement implies comparison of quantities and includes counting of entities)。换句话说,数一类实物的个数或同一个实物出现的次数也是测量的一种形式。不难看出,这条注解也有明显的局限。既然数实物是测量,那么数现象或者抽象的概念算不算测量呢?当然也应该算。打了几次雷,出现几次闪电,某个念头在脑海里闪现过几次,等等,这些都是测量的例子。

VIM 2.1对测量定义的第3条注解的意思:测量预设了对所测的量的描述,该描述与对测量结果所拟定的使用相匹配;测量还预设了一套测量规程和一个校准过的测量系统(即测量工具),这个系统要按照特定的测量规程操作,包括特定的测量条件(Measurement presupposes a description of the quantity commensurate with the intended use of a measurement result,a measurement procedure,and a calibrated measuring system operating according to the specified measurement procedure,including the measurement conditions)。

这条注解的内容非常丰富。第一层意思是,它要求测量结果与结果的使用相匹配。换句话说,目的或用途决定了特定测量的恰当性或合适性。例如,如果结果的使用是一个人分几个苹果,那么,清点用来分配苹果的个数和参加分配的人数就是与结果使用相匹配的测量;如果是按照重量和人头平均分配,那么,清点人头与使用相匹配,清点苹果个数就与使用不相匹配,而称供分配苹果的重量才是与使用匹配的测量;如果不同资质的人分配不同数量的苹果,那么,简单的清点总人数也是与使用不相匹配的测量,而分别清点每类不同资质的人的数量才是与使用相匹配的测量(如30年工龄及以上的人有多少,25~29年工龄的人有多少,15~24年工龄的人有多少,15年以下工龄的人有多少)。对于衡量一个人的学术贡献,计算其所用过的科研经费总量和发表文章的总篇数,都不是合适的测量。因为,学术贡献量的单位不是金钱,也不是文章的篇。显而易见,有些文章不仅不能促进学术的发展,还可能妨碍甚至破坏学术的发展;有些经费可能会用在与学术无关的活动上,即使完全用在学术研究上,它也只是投入,并不能代表产出及其影响。

注解3的第二层意思是,要实施测量,事先应该有一套准备精当随时可用的测量系统或测量仪器(统称测量工具)。也就是说,测量的实施和测量工具的制造是分开的。测量工作者只管测量工具的使用,不管测量工具的制造。

第三层意思是,测量活动要按照一套事先规定好的程序,在事先规定的条件下开展。这就意味着,测量是一种有计划的活动,测量的规程和条件的制定者不一定就是测量活动的实施人。

以语言测试为例,考试的实施、阅卷计分、分数的报道等更像测量,而试卷的编制、监考程序的制定、评分标准及其制定等则更像是测量工具的研发。至于监考人员(不包括巡考和其他考试实施过程中的管理人员和后勤人员)和主观题的阅卷人员,似乎很难判断他们到底属于测量的工具,还是测量的实施人员。建议把他们看作测量的工具部分。

需要特别指出的是,把测量的工具和使用工具实施测量分开来对待是自然科学和工程技术界的普遍做法。这样明确分工,有利于测量实施者集中注意力把工作做好。通常,测量实施者的责任是按照规定程序在规定条件下取得观察值,然后再通过观察值获得待测量的估计值,并对估计结果予以报告。一般既要报告估计的方法,也要报告估计结果的不确定度信息。如果是间接测量,还要报告测量函数或方程。

但是在语言测试中,似乎通常把焦点放到测量工具方面,导致测量的实施过程、测量的结果、结果的得出方法、结果的报告、结果的意义等未能受到应有的重视。其后果是,要么测量结果无法使用,要么测量结果被误用甚至滥用。

例如,把425分定为大学英语考试的及格分就是典型的误用。如果按照《全国大学英语四、六级考试大纲》(2016年修订版)第13页提供的信息进行推断,这个425分的意思:在称作常模的参考组中,大约有不到14.23%的考生的总分低于425分,或者,常模集团中有大约85.77%的考生的总分等于或高于425分。根据全国大学英语四、六级考试官网上“CET分数解释”栏提供的信息,对于四级考试,410分对应的是等于或高于11%的常模考生,430分对应的是等于或高于17%的常模考生。更令人无所适从的是,官网的“CET分数解释”栏明确指出,“大学英语四、六级考试的分数报道采用常模参照方式,不设及格线”;而考试大纲2016年修订版的第13页却明确说:“考生的四级笔试成绩达到425分及以上,表明其语言能力已达到《大学英语教学指南》中‘基础目标’所设定的教学要求;考生的六级笔试成绩达到425分及以上,表明其语言能力已达到《大学英语教学指南》中‘提高目标’所设定的教学要求。”难道,达到要求的意思不是及格?

3.测量与计量学

在汉语的教育和心理测试话语体系中,习惯上把研究测量的学科叫作测量学。如果要和自然科学、工程技术中的测量接轨,就必须放弃这套话语体系,而采用ISO/IEO Guide 99:2007(俗称VIM 3,即VIM第3版,以下在不引起混淆的条件下简称VIM)的话语体系,即严格按照ISO/IEO Guide 99:2007所定义的基本词汇来讨论测量问题。

根据VIM 2.2的定义,关于测量及其应用的学科是计量学,英文是metrology,法文是métrologi。在竞技体育中就有运动计量学(sports metrology)。但是在行为科学中,所谓的“心理计量学”对应的英文是psychometrics。尽管英语文献中也有把psychometrics用作心理测量学或计量学的,例如Nunnally(1978)、Nunnally和Bernstein(1994)就把自己的著作定名为Psychometric Theory(《心理计量理论》)。根据英文学刊Psychometrika所发表文章的情况以及econometrics和biometrics在经济学和生物学中的使用情况,后缀-metric或-metrics的意思是数学方法,尤其是统计方法,而不是严格意义上的测量学或计量学。鉴于此,可以借鉴数学物理方法的称谓,把psychometrics翻译成“数学心理方法”,把econometrics和biometrics分别翻译成“数学经济方法”和“数学生物方法”。

为了便于讨论,便于学科之间的交流或经验分享,我们应该废止“教育测量学”或“心理测量学”这两个称谓,可以把教育学中研究测量及其应用的部门改叫“教育计量学”,英语用educational metrology甚至edumetrology;把心理学中研究测量及其应用的部门改叫“心理计量学”,英语用psychological metrology甚至psychometrology;把语言学中研究测量及其应用的部门改叫“语言计量学”,英语用language metrology。

三 评估

在包括语言测试在内的教育测试界,评估是一个几乎可以和测试或测量互换的概念。近几年来,评估一词在语言测试界用得越来越频繁。例如,在语言测试界,不仅有一本叫Language Testing(《语言测试》)的学刊,从2004年起,还出现了一本叫Language Assessment Quarterly(《语言评估季刊》)的学刊。剑桥大学出版社还推出了一套THE CAMBRIDGE LANGUAGE ASSESSMENT SERIES[剑桥语言评估丛书],包括Douglas(2000)的Assessing Language for Specific Purposes(《具体用途语言评估》),Read(2000)的Assessing Vocabulary(《词汇评估》),Alderson(2000)的Assessing Reading(《阅读评估》),Buck(2001)的Assessing Listening(《阅读评估》),Weigle(2002)的Assessing Writing(《写作评估》)。但从内容看,是看不出评估一词的具体含义的,似乎完全可以和测试或测量互换。为了避免对实践界的误导,很有必要澄清“评估”这个概念。本部分首先讨论“评估”一词的基本含义,然后对学界和实践界提出一些建议。

1.评估的基本含义

在汉语话语体系中,由于近年来教育行政相关部门对高等教育总体情况的关注,把原本学界称作“评价”的活动定名为“评估”,这使得原本意思就不明确的“评估”一词,用法更加复杂。根据《现代汉语词典》(2002年增补版)的解释,“评估”一词有两个意思:评议估价,评价。也就是说,在日常的汉语话语体系中,既可以把“评估”用作评议估价之义,也可以把它用作评价之义。例如,在日常汉语中说“教育合格评估”或“审核教育评估”是可以的,只是要求读者或听者把“评估”理解为“评价”。但是在学术话语体系中,评价对应的英语是evaluation(名词)或evaluate(动词),而“评估”一词是对英语中assessment或assessing的翻译,所以,我们还得从这两个英文词语说起。至于evaluation或evaluate这两个词,我们在讨论“评价”这个概念时再具体分析。

首先,assessment是一个抽象名词,既指一个过程,也指通过这个过程所得到的结果;assessing是一个动名词,是动词表述过程时的形态,并不构成一个独立的词语,所以它的意思就是动词assess的意思。在教育管理话语体系中,姑且把这个英文概念翻译成汉语的“评估”。

其次,根据The American Heritage Dictionary(第二大学版)上的定义,动词“评估”(assess)是一个财经或税收上的概念,是对财产价值的估计或根据估计结果确定的应纳税数额。这个所谓的“评估”,其通常使用的意思是“估价”或“估值”,其核心有二:一是结果粗略,二是结果的单位是货币单位。可见,在英语中,assessment一词的一般用法并不包含教育活动中的assessment的内容。换个角度讲就是,教育活动中的assessment既不包含金额之义,也不包括粗略之义。

根据Salvia和Ysseldyke(1995,p.5),“评估”(assessment)是教育活动中为了对学生进行决策而采集数据的一个过程,其范围比“测试”要广泛得多,不仅表现在内容上,也表现在所用的方法上。就内容而言,评估就等同于对教育各个方面的诊断:有学生智力方面的(Salvia & Ysseldyke,1995,第16~18章)和成绩方面的(第20~24章),也有学生心理和生理方面的(第19章,第25~27章);有老师和师生互动方面的(第13章),也有教学环境方面的(第13章)。就方法而言,既有定量的,也有定性的。这个意义上的评估,就等同于根据对学生教育情况的综合考量而进行决策,包括是否达标、是否满足进行特殊教育的标准等。根据Cohen和Swerdlk(2005,p.3),评估的方法包括使用测试(tests)、案例研究、行为观察等。这两位作者引用Maloney和Ward的观点,特别强调测验(testing)与评估的重要区别之一是,评估必须对学生一个一个地进行,其目标远非只获得一个数字结果。事实上,Salvia和Ysseldyke(1995)以及Cohen和Swerdlk(2005)都把testing等同于“测量”,而把assessment等同于“评价”(evaluation)。

2.对学界和实践界的几点建议

为了便于交流经验和分享知识,建议学界和教育实践界在使用“评估”一词时,要尽量与其他领域接轨或一致,至少也要有明显的交集。为此我提出如下建议。

可以在“粗略评定标的物或人的属性的经济价值”这个意义上使用“评估”,突出其经济价值以及所得价值的粗略性。

可以在“大体、粗略性”这个意义上使用“评估”一词,突出其评定结果的粗略性,结果的表述也要模糊,而不能太确切。

避免在“综合”意义上使用“评估”一词,若确有必要强调综合性,可以用“综合评估”来显性表述。

避免在“测量”意义上使用“评估”一词,若确有必要,可以使用“测量”;若要突出测量结果的粗糙性,可以用“估量”。

不要把测量的那套理论搬到评估活动之中,特别是有关测量工具制造的理论(如项目难度、区分度、干扰性等)和测量结果质量评定的理论(如标准误、信度等)。

“评估”与评估结果的使用要匹配。不可以将评估结果做高风险决策或有严重后果的决策,特别是不能单纯用评估结果做高风险决策。

四 评价

人是一种评价性动物。生活中,我们习惯对事物给出一个价值判断。这里的价值判断是广泛意义上的,包括好与坏、值得与不值得、要与不要、达标与未达标判断,等等。本节首先讨论“评价”与evaluate/evaluation的基本含义,然后讨论“评价”的分类,最后对学界和实践界提出一些用词建议。

1.评价与evaluate/evaluation

在日常汉语话语体系中,“评价”既是名词,也是动词,其意思是,得出带有倾向性的评语或结论。例如,“群众对此评价很高”“上级领导对你有很高的评价”“他的历史评价不高”“他在历史上没有得到应有的评价”,等等。以上意义上的评价主要是指主观评判或根据主观评判下的结论或评语。

但是,在教育学话语体系中,评价指的是一种专业性很强的综合评判活动,已经形成一个学科部门——教育评价(学),不仅有专门的著作(如黄光扬编写的《教育评价与测量》,邱均平的《教育评价学》),还有专门的学术刊物(如由湖南省教育厅主管湖南省教育考试院2008年开始主办的学刊《教育测量与评价》)。这种专业性的综合评判活动不仅要有一定的客观标准,而且标准的制定也要建立在一定的理论基础之上,评价的工作人员还要受过严格的训练。

以上专业意义上的“评价”是从英语翻译过来的,因此,我们需要对英语中与评价对应的词语evaluate/evaluation加以剖析。

在英语中,evaluate/evaluation的用法和汉语中“评价”一词的用法很不相同。汉语中“高度评价”以及“评价不高”意义上的“评价”,翻译成英语根本与evaluate/evaluation无关,而与动词speak[赞美、赞扬]和appriaciate[赏识、喜欢]有关。美国的The American Heritage Dictionary(第二大学版)对evaluate析出了三条意思:(1)确定或固定……价值;(2)仔细且小心地检查和判断;(3)计算或算出……的数值,或用数值表示。由于evaluation就是从动词evaluate派生而出的,其意思是一致的。不难看出,教育评价中的“评价”一词,用的是第二个义项,而测量文献中却经常用第三个义项,即算出或求出数值。[1]需要特别指出的是,Messick(1989)明确指出,Validity is an integrated[综合性的] evaluative[评价性的]judgement[判断]of the degree to which empirical[经验性的]evidence[证据]and theoretical[理论性的]rationales[依据,缘由]support the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment(p.13)。这句话不仅定义了效验的内容,而且揭示了效验活动的本质:就经验证据和理论依据对结果使用的支持程度进行综合评价。显然,证据可能是数量型的,也可能是性质型的,理论更明显是概念性的,既可能是哲学层面的,也可能是操作层面的。

2.评价的类别

按照不同的分类标准,可以把评价分成不同的种类。按照评价结果是数值型结果还是非数值型结果,可以把评价分为定量评价和定性评价。按照评价内容是单方面还是多方面,可以把评价分为单项评价和多项评价。按照评价的对象是人还是产品或项目,可以把评价分为人品评价、产品评价和项目评价。按照评价的内容是最终结果还是中间结果,可以把评价分为形成性评价和总结性评价。按照评价开展的时间,可以把评价分为前期、中期或后期评价。当然,还可能有更多的分类方式。

定量评价与定性评价。定量评价就是对接受评价对象在所评价方面的状况或所取得的成绩给出一个数值或分数。这个数值或分数就是按照一定标准所评价属性的赏识值/分。所根据的标准就是客观的评价标准,而不是主观的随意标准。有时,评价标准是以函数或表格形式出现的,有时是以指标体系及其分值范围和分数权重形式出现的。例如,运动计量学中的评价就采用函数形式(扎齐奥尔斯基,1988,第5章),国际田联的项目得分表就采用表格形式(国际田联官网:iaaf.org/about-iaaf/documents/technical)。和定量评价一样,定性评价也是按照一定的标准对受评属性的判断,所不同的是,判断结果的表述是定性的,而不是数量的。但定性不一定模糊。定性结果表述可以是模糊的,也可以是确切的。例如,某个指标没有达到标准要求(确切表述),某个指标较弱(模糊表述)等。但无论如何,指标必须是客观的,是评价之前就制定好了的。评价只是对指标的使用,而不是对指标的制定。甚至,指标的制定方不一定就是评价的主体。如果标准制定方不是评价的主体,这种评价叫第三方评价。特别需要注意的是,定性和定量评价的区分在于评价结果,而不在于评价的方法和评价的证据种类。

单项评价与多项评价。如果所评价的是受评的单一属性,无论是采用定量的方式还是定性的方式,这种评价都是单项评价;如果所评价的是受评的多方面属性,无论是采用定量的方式还是定性的方式,这种评价都是多项评价。多项评价也可以叫多侧面评价。有时候,单项评价和多项评价是相对于结果使用而言的,而不是绝对的。也就是说,同样的评价内容,对于甲使用目的可能是单项评价,对于乙使用目的却可能是多项评价。例如,想要了解个体学生的总体词汇成绩,就要对其词汇做单项评价(如词汇的总数量是否足够或平均质量是否达标);想要了解个体的词汇成绩分布情况,就要对其词汇做多项评价(不同类别词汇的量是否足够和质是否达标)。一般情况下,多项评价是由相应的多个单项评价构成的。例如,对学生词汇掌握状况的多项评价就包括对学生常用名词、动词、形容词、副词以及各种功能词掌握状况的评价,而对名词或动词或任何一个词类掌握状况的评价都可以看作单项评价。当然,对于名词的评价也可以细分为对具体名词/抽象名词、普通名词/专有名词、个体名词/集合名词、可数名词/不可数名词等。可见,和测量一样,评价也应该和评价的目的或结果使用相匹配,不然就是对评价的误用或滥用。

人品评价、产品评价、项目评价。如果接受评价(简称“受评”)的是人,则评价为人品评价;如果受评是产品,则评价为产品评价;如果受评是项目,则评价为项目评价。人品评价又可分为个体人品评价和团体/集体人品评价。由于团体是由相应的个体组成的,因此,可以用关于个体的材料来评价团体,但不可以反过来用关于团体的结论来评价个体。需要注意的是,受评是人,但所评价的内容是人的属性或品性。这里的人品就是人的属性或品性,而不是人的品行。如果把受评换成产品,包括硬产品和软产品,那么,评价就成了产品评价。产品和人品是相对的,而不是绝对的。例如,对于学校,它所培养出的学生就是产品;对于雇主,受聘的毕业生就是人品。此外,把摸得着的产品叫硬产品(如学生、印刷版的文章或其他作品),把摸不着的产品叫软产品(如软件、服务)。如果受评是项目,包括教育教学项目、教改项目、科研开发项目等,那么,评价就是项目评价。项目评价有的比较简单,有的非常复杂。例如某个小型教改项目的评价就比较简单,对某个学校新设专业的评价就较复杂一些,对于全国某个层次办学情况的评价就非常复杂。需要特别指出的是,对于人品和产品评价合适的证据或材料,对于项目评价未必合适;对于不同的项目,同样的证据也未必合适。例如,对于评价某个单位的新办英语专业,学生的四、八级成绩或合格率是合适的,但对于评价《高等学校英语专业教学大纲》,学生的四、八级成绩或合格率就不合适。假定每道题都是大纲规定的内容,学生总体在每道题上的得分率,对于评价大纲才是合适的。

形成性评价与总结性评价。形成性评价是对过程进行中不同阶段状况或非成品的评价;总结性评价是对过程结束时状况或成品的评价。关键是,形成性评价所评价的内容要么是“阶段性状况”,要么是“非成品”;而总结性评价所评价的内容要么是“结束时状况”,要么是“成品”。和评价的时间相比,评价的内容更重要。换句话说,即使在中间阶段,如果评价的内容是结束时的期望状况或成品,这样的评价很难说就是形成性评价。例如,对于形成性评价而言,more better和wented都可以看作正确形式,但对于总结性评价而言,better(或much better)和went才是正确形式。不难看出,就外语学习而言,形成性评价对于评价人的要求更高,要求评价人不仅要了解所评价属性的最终状态,还要了解所评价属性在不同发展阶段的不同状态。换句话说,与总结性评价相比,形成性评价对评价人提出了更高的要求。形成性评价重在诊断问题,调整方法,及时采取必要的措施,以促成或保障最终目标的实现。从另一个角度看,形成性评价提供的是动态的不同发展阶段的信息,而总结性评价提供的则是静态的整个阶段结束时的信息。形成性评价和总结性评价一般是针对产品而言的,而不是针对人品或项目而言的。

前期评价、中期评价、后期评价。与形成性评价和总结性评价相反,前期、中期或后期评价一般是对于项目评价而言的,而不是针对人品或产品的。前期评价一般指对个体或团体项目准备情况或是否具备承担或开展某项目的条件的评价,评价的内容主要是项目或项目方案的可行性包括项目候选承担人的资质,重要目标之一是寻找项目承担人;中期评价一般指对个体或团体项目开展一段时间后的执行情况或项目是否如期进行、是否需要调整等情况的评价,评价的内容是项目执行一段时间后所产生的结果(但不一定是成果),重点是检查项目的进展情况,看是否需要调整进度、预期甚至投入;后期评价一般指对个体或团体项目后期或最终执行情况的评价,评价的内容主要是最终结果,包括最终所取得的预期成果、半成果、意外成果或未取得预期成果的原因等。一般情况下,前期评价是最严格的,中期和后期评价要宽松很多,有时甚至是形式重于内容。对于投入巨大的重大项目,各个阶段的评价都很重要。有时,项目承担人可以主动请求出资方进行中期评价,以便追加投入,保障项目任务的完成。有时,项目委托方要求对项目的中期或最终开展情况进行评价,以调整对项目的资助策略,保障预期成果的取得,或者决定是否进行后续投入。有时,项目承担方会对项目进行的各个阶段甚至最终情况加以评价,以及时调整项目的人力分配或资金分配,优化项目过程管理,总结项目中的经验,包括成功的经验和失败的经验,以提高自身执行项目的能力,提高自身承接项目的可能性。