关灯
护眼
字体:

7 平均数 它在多数情况下毫无意义(第3页)

章节目录保存书签

对于上述“奥妙”,统计学家或统计数据发布者们体会最深,所以常常喜欢用这种伎俩来欺骗读者。

例如,当他们想说明这几年平均收入增长速度较快时,通常会采用数值较高的算术平均数来计算;而当需要达到其他目的时,又会报出另一个平均数来。

通过这些方法得到的平均收入,虽然从统计方法上来说都没错,可是如果不符合你的理解,也就不具备实际价值,并且还会造成困惑,产生误导。

当然,读者有时候并没必要去区分这个平均数究竟是算术平均数、加权平均数、众数还是中位数。

例如,如果你出于一般目的,想知道某个班级学生的平均身高是多少,就没有必要搞得太复杂,因为在这种情况下各种方法取得的平均数大致相等 5;而如果你是为了制作校服,就必须了解更多信息,既要了解这种平均数究竟是什么类型的平均数,更要在此基础上用到全距和标准差等信息,而且最好是知道每一组数据分别是多少。

描述每个人的身高时是这样,但在描述每个人的收入时就绝对不能采用这种方式了。

究其原因在于,每个人的身高变动较小,有的甚至非常接近;而每个人的收入差别则很大,甚至相差成千上万倍。这时候它的曲线形状通常不是钟形状态的、对称的正态分布,而是有点像孩子们玩的滑梯,后面拖着长长的尾巴——梯子的一侧呈陡斜状,一直升到顶部,而滑道的一侧则缓慢向下倾斜。这时候,用算术平均法来表示收入平均数与中位数相差甚远。

明白了这个道理读者会发现,在进行年收入比较时,如果说去年的平均收入(平均数)与今年的平均收入(中位数)相比,用这种方法计算出平均收入增长率就毫无意义。可是你还不能说,在有些统计数据中,就是采用这种方式来糊弄读者的。

读者平时看到的平均收入等数据,如果没有特别说明,通常采用算术平均数。它的最大优点是,对读者来说“最没有意义”,但是对统计数据发布者来说却“最有意义”。究其原因在于,这种平均值不但会拉高全社会的平均收入额,而且会隐瞒年收入几百万、几千万的巨额收入者,以及年收入非常可怜的赤贫者。

所以,有兴趣的读者在了解到全社会的平均收入数据后,可以在每年出版的《中国统计年鉴》或国家统计局官方网站上进一步查阅比较详细的、分组统计的各项数据,弥补这种不足。

实际上,比平均值作用更大的是中位数,而用中位数作为平均数是国际惯例。中位数能够表明一半人的收入超过这个数字,另一半人的收入低于这个数字。所以,读者在了解平均收入时,不妨再关心一下以中位数表示的平均收入是多少,这样或许更能说明问题。否则,许多人会看了这样的平均收入后上当受骗,许多企业也正是用这种方式来达到某种不可告人的目的。

举个简单的例子来说,如果某企业有3位合伙人,100名员工。这年的经营业绩还不错,100名员工的人均年收入是4万元,3位合伙人的人均年收入10万元,当年企业实现利润200万元。如果企业把这些数据张榜公布,一定会有员工愤愤不平:我们辛辛苦苦工作,年收入才4万元,你们(合伙人)凭什么每人就轻而易举地得76。67万元?

好了,如果不进行这种区分,而是把所有人的年收入和利润分配平摊到每个人身上,结果就变成人均年收入630÷103=6。12万元,这样看上去就“和谐”多了,张榜公布在橱窗里也不会激起民愤了。工人们感到老板们的收入(10万元)实际上只比自己“略高”一点;并且还会纷纷猜测其他工人的工资比自己高,因为自己只拿到4万元。而实际上呢,大家拿到的都是4万元。

看看,这就是算术平均数掩盖事物本质的“功劳”。

这个例子虽然粗糙,可是这种伎俩在劳动工资统计中比比皆是。这就是为什么在同一个企业中,明明看到办公文员的年收入只有3万多元,公司总裁的年收入高达100多万元,最终公布的年平均收入是几万元就能搪塞过去的原因。类似这样的情形太多了。

例如,美国钢铁公司(the Ues Steel Corporation)的工资统计数据表明,该公司10年间的员工平均周收入上升了107% 6。单纯从平均数据看确实如此,但读者怎么也不会想到,该公司在早期的统计数据中包括兼职员工人数,从而扩大了计算公式的分母,拉低了基期收入数据。如果你知道这一点,就会明白这种收入增长率的水分了。

举例来说,如果你某年在这家公司工作了半年,而第二年则是全年在这家企业工作的。虽然在此期间你的工资收入没有任何变化,可是根据这样的平均数来统计,你的年收入就已经增长了1倍。

简单地看平均数,很容易被平均数后面掩盖着的“不平均”所误导。例如你家中的住房面积只有50平方米,而邻居家则从50平方米换成了150平方米,虽然你的实际住房面积没有任何变化,可是你们两家的平均住房面积却都从原来的50平方米增加到了100平方米!

警惕吧,这样的笑话。

【解读点睛】

一位不会游泳的统计学家听说河水平均深0。5米就淌过去,结果淹死了,实际上它的最深处超过2米。极端值会严重干扰平均数的真实性。

1 吴杭民:《不为平均数沾沾自喜方能全面改善民生》,浙江工人日报,2008年3月13日。

2 调和平均数由于平时不常用,并且统计调和平均数和数学调和平均数还有诸多不同,所以这里略去不谈。

3 顺便提一下,如果在被观察者中没有明显的次序(通常不能用数据来表示)时,由于无法很好地定义算术平均数和中位数,这时候可以用其中的某个名称来表示众数。例如,一组事物“鸡、鸭、鱼、鱼、鸡、鱼”中的众数,就可以用“鱼”来表示。但这种情形不在本书研究之列。

4 如果这组数据的总数是偶数,那么计算中位数时就要取最中间的两个数的平均值。例如,在3,5,7,8这组数中共有4个数,中位数就是其中最中间的两个数的平均值,即(5+7)÷2=6。

5 在处理诸如人类特征的数据时,各种平均数的数值会十分接近。这些数据具有我们常说的正态分布特点,它们的平均值、中位数、众数会落在相同的点上。

6 [美]达莱尔·哈夫著、廖颖玲译:《统计数字会撒谎》,北京,中国城市出版社,2009年,第30页。

章节目录