二t分布(第1页)
二、t分布
t分布(t-distribution)是统计分析中应用较多的一种随机变量函数的分布,是统计学者高赛特1908年在以笔名“Student”发表的一篇论文中推导的一种分布。因此,这种分布有时也叫学生氏分布(Student'sdistribution),这种分布是一种左右对称、峰态比较高狭,分布形状随样本容量n-1的变化而变化的一族分布。
t分布与σ无关而与n-1(自由度)有关,t分布的自由度用符号ν(小写希腊字母,读作nu)或df表示,一般为n-1,即样本容量减1。自由度(degreesoffreedom)是指任何变量中可以自由变化的数目,是t分布密度函数中的参数ν,它代表t分布中独立随机变量的数目,故曰自由度。
(一)t分布的特点
1。平均值为0。
2。以平均值0左右对称的分布,左侧t为负值,右侧t为正值。
3。变量取值在-∞~+∞之间。
4。当样本容量趋于∞时,t分布为正态分布,方差为1;当n-1>30以上时,t分布接近正态分布,方差大于1,随n-1的增大而方差渐趋于1;当n-1<30时,t分布与正态分布相差较大,随n-1减少,离散程度(方差)越大,分布图的中间变低但尾部变高,如图6-10:
图6-10t分布密度曲线图
(二)t分布表的使用
图6-11df=20时t分布的双侧概率
t分布表不同于正态分布表。附表2是常用的t分布表。t分布表由三方面的数值构成,即t值、自由度和显著性水平。表的左列为自由度,表的最上一行是不同自由度下t分布两尾端的概率,即p值。它是指某一t值时,t分布两尾部概率之和,即双侧界限。表的最下一行是单侧界限,即从t值以下t分布一侧尾部的概率值。双侧概率通常写作tα2,单侧概率写作tα。表内的数值是与不同的p值和df值相对应的t值,是根据t分布函数计算得到的,它随df及概率不同而变化。例如df=20,双侧概率为0。05时,t值为2。086,记为t0。052=2。086,意思是在t值小于-2。086以下的概率与t值大于2。086以上的概率之和为0。05,即两尾端的面积和与总面积之比率为0。05,见图6-11。上例的单侧概率就记为t0。025=2。086。同样的自由度若概率为0。01时,双侧概率为t0。012=2。845,单侧概率就记为t0。01=2。528。若自由度为30时,t0。012=2。750,虽然与自由度为20时相差很小,但说明t值是随自由度的变化而变化的。
粗略观察一下t表,发现在自由度确定的情况下,t值越大,p值就越小。通常使用这个表有两种情况:一种是已知自由度和概率值查t值,另一种是已知自由度和t值查相应的概率值。有时所查t值,不一定恰恰与某概率的t值相等,这时可取近似的概率值,或用直线内插法计算其精确值。
从t值表可查得自由度df=30的情况下,在0。05概率时,t=2。042,而正态表相同概率时Z=1。96,二者相差甚微,当df→∞时,t值表所列不同概率下的t值与正态表相应概率下的Z值完全相同。故可知当n→∞时,t分布的极限为正态分布。
(三)样本平均数的分布
1。总体分布为正态,方差(σ2)未知时,样本平均数的分布为t分布。
从一个正态分布的总体中,每次抽取容量为n的样本,计算平均值,由于总体方差未知,这时,样本平均数的分布不是正态分布而是t分布,t分布的形式随样本容量n的变化而变化。无限多个样本平均数的平均数就是总体平均数μ,而平均数分布的标准差(也称标准误)与样本本身的标准差有下述关系:
总体分布为正态而总体方差未知这种情况,在心理和教育的研究中出现较多,因而t分布的应用比较多。
2。当总体分布为非正态而其方差又未知时,若满足n>30这一条件,样本平均数的分布近似为t分布。
据前述,当分布的自由度为30时,t分布与正态分布十分接近,故此时样本平均数的分布可视为渐近正态分布。这就是说,当n>30时,应用正态表计算概率(近似值)或应用t分布表计算概率(较精确值)都可以。因为总体方差未知,其标准误的计算,可用样本方差作为总体方差的估计值。其公式如6-11式。
除样本平均数的分布在一定条件下遵从t分布外,σ未知时两样本平均数之差的分布、样本相关系数的分布、回归系数的分布在一定条件下也遵从t分布。