关灯
护眼
字体:

第二节 等值和垂直量表化(第2页)

章节目录保存书签

4。测验严格平行

洛德认为,只有严格平行测验上的分数才能进行等值。

5。测验可靠

洛德认为,只有完全可靠(reliable)的测验上的分数才能进行等值。

根据洛德提出的以上这些等值条件,下面又有几条延伸的解释性条件。

6。等值过程对称

从x测验到y测验的等值关系,与从y测验到x测验的等值关系,应是互逆的,两个测验上的分数或项目参数的转换结果应该保证是一对一的关系。要做到这一点,就必须保证所有等值测验分数的严格单调性,即更高能力水平的被试无论在哪个测验上的得分总是高于更低能力水平被试的分数,而更低能力水平被试的得分总是低于更高能力水平被试的得分。这就要求等值测验必须做到洛德提到的前五点要求。

7。等值结果公平

考生参加被等值的任何一个测验,得到的分数在等值以后都是一样的。这也要求等值测验必须做到洛德提到的前五点要求,特别是第四点关于测验严格平行的要求。

8。样本不变

两个测验之间的等值转换关系不依赖于某个具体的测试样本。无论选择的样本能力水平分布如何,应该可以得到相同的等值结果。这也要求等值测验必须做到洛德提到的前五点要求,特别是第三点关于测验难度水平相同的条件。

9。等值过程可递推

如果测验x与测验y之间有等值转换关系f(x)=y,测验y与测验z之间有等值转换关系g(y)=z,那么测验x与测验z之间一定有转换关系存在,h(x)=g[f(x)]=z。这种关系还可以推至更多的测验形式。这就要求等值测验必须做到洛德提到的前五点要求。

许多学者认为,如果测验之间符合以上关系,其实根本就不用进行等值转换,因为同特质、同难度水平、同信度、严格平行、完全可靠的测验分数是可以直接进行比较的。然而,在现实测试条件下,以上条件不可能完全达到,总是需要进行一些校正,于是,这些条件成为我们应该追求的目标。当然现实条件不能偏离标准太远,否则等值结果就没有任何意义。也正是基于对以上条件的认识和现实的测试条件,许多学者建议,这种测验分数转换过程不应叫等值(equating),而称为链接(linking)更加妥当。

(二)等值设计

等值设计是为收集适合进行等值转换的测试数据的工作,主要涉及一般测试中的三个方面的内容:一是测验的设计;二是被试样本的设计;三是测验与被试样本之间的组合模式。

要进行不同测验结果之间的转换,使两个测验结果可以相互直接沟通,就必须首先找到转换的共同逻辑。这就和我们日常中的人际关系一样,如果你想要结识某位陌生人并与他建立联系,经常是通过中间介绍人进行联系,或者是通过某个共同关心的话题进行交流。等值设计的目的就是设计不同测验之间进行沟通的中间媒介。

等值中的基本元素就是测验项目和被试样本,所以,等值的中间媒介也就集中于对这两个元素的设计中。现在经常使用的等值设计模式有以下几种,我们逐一进行介绍。

图10-1单组设计模式

1。单组设计

单组设计是从被试样本的角度找到不同测验结果之间进行等值转换的沟通模式。这种设计模式就是让同一批被试先后参加两个需要进行等值转换的不同测验,两个不同测验结果之间就通过相同的被试样本建立了联系,具体设计模式如图10-1所示。

从图10-1可以看出,纯粹从形式上看,这种设计模式其实是让一组被试样本参加了一个超长的测验,只是这个测验被分为两个阶段进行。这种设计得到的等值数据最直观、最简单。

单组设计通过让同一组被试参加两个不同测验的方式,消除了测验之间被试样本的能力差异。然而,这种等值设计模式可能会引起两种测试的顺序效应:练习效应和疲劳效应。

因为进行等值的两个测验必须是测量相同的特质领域,所以,第一个测验可能会对第二个测验起到练习的作用,从而提高被试在第二个测验上整体的作答表现,这种整体成绩的提高又会反映在等值转换关系中,导致第二个测验的成绩存在测试的顺序优势。另外,让同一组被试参加两个测验,又有可能引起疲劳效应,特别是测验仅仅是用于研究目的时,被试作答的消极情绪会更加明显,这就可能降低被试在第二个测验上整体的作答表现。同样,这种整体成绩的降低也会反映在等值转换关系中,导致第二个测验的成绩存在测试的顺序劣势。顺序优势和顺序劣势能否相互抵消呢?它们是否对每个被试的影响程度都是一样的呢?如果无法平衡顺序效应,就应该从设计模式上进行必要的改良。

为了消除顺序效应,学者们提出了经改良的单组设计模式——平衡组设计,这种设计模式将同一个被试群体再随机地分成两个子被试组,其中一个子被试组先施测测验1再施测测验2,另一个子被试组则先施测测验2再施测测验1,也就是说,在同一测试时间内,一半被试测试测验1,另一半被试测试测验2。经过这样的改良之后,被试的顺序效应可以得到比较好的控制。

2。等组设计

等组设计也是从被试样本的角度找到不同测验结果之间进行等值转换的沟通模式,这种设计模式是让两个能力分布相同的被试样本组分别参加两个需要进行等值转换的不同测验。由于两个被试组的能力分布相同,因此他们在两个测验上的分数就可以通过这一共同特性建立比较关系。

能力分布相同意味着能力分布的平均数、标准差等各阶动差指标均相同,因此,这两个组的被试应该是来自同一个总体的两个样本。在实践中,为了得到真正的“等组”被试样本,常用的做法有两种:一种是匹配被试组;另一种是随机等组。匹配被试组的做法是,在挑选两个被试样本时,必须成对地进行挑选,每一对被试的特质水平是相同的,最终得到的被试样本不但对总体具有代表性,而且两个被试组被试的水平需要一一对应。随机等组的做法是从同一个被试总体中以随机抽取的方式得到两个被试样本组,由于是完全随机抽取的,因此只要抽取的样本容量足够大,具有足够的代表性,我们就有理由相信这两个样本组被试的特质分布状态是一致的,即这是两个等组被试样本,这种设计模式也称为随机等组设计。从被试样本抽取的要求和过程可以看到,匹配被试组设计要求严格、过程复杂,但等值结果会更加可靠;而随机等组设计要求相对宽松、过程更加简单,但一定要保证更大的样本容量及其代表性,才能保证等值结果的稳定性。

与单组设计模式相比,等组设计的优点在于每个被试只参加两个等值测验中的一个测验,因此,可以消除各种形式的顺序效应。其缺点在于,两个被试样本组必须有相同的“能力分布”这个前提条件,这在实践中比较难以满足。

等组设计的具体模式如图10-2所示。

图10-2等组设计模式

注:“×”表示该被试未作答该测验,在匹配被试组设计中n1=n2,随机等组设计对n1、n2则没有相等的严格要求,但应该非常接近。

单组设计和等组设计的等值转换关系比较容易得到。

3。共同被试组设计

章节目录