学生t 分布
概率密度函數
累積分布函數
参数
ν
>
0
{\displaystyle \nu >0\!}
自由度 值域
x
∈
(
−
∞
;
+
∞
)
{\displaystyle x\in (-\infty ;+\infty )\!}
概率密度函数
Γ
(
(
ν
+
1
)
/
2
)
ν
π
Γ
(
ν
/
2
)
(
1
+
x
2
/
ν
)
(
ν
+
1
)
/
2
{\displaystyle {\frac {\Gamma ((\nu +1)/2)}{{\sqrt {\nu \pi }}\,\Gamma (\nu /2)\,(1+x^{2}/\nu )^{(\nu +1)/2}}}\!}
累積分布函數
1
2
+
x
Γ
(
(
ν
+
1
)
/
2
)
2
F
1
(
1
2
,
(
ν
+
1
)
/
2
;
3
2
;
−
x
2
ν
)
π
ν
Γ
(
ν
/
2
)
{\displaystyle {\frac {1}{2}}+{\frac {x\Gamma \left((\nu +1)/2\right)\,_{2}F_{1}\left({\frac {1}{2}},(\nu +1)/2;{\frac {3}{2}};-{\frac {x^{2}}{\nu }}\right)}{{\sqrt {\pi \nu }}\,\Gamma (\nu /2)}}}
其中:
2
F
1
{\displaystyle \,_{2}F_{1}}
是超几何函数 期望值
ν
>
1
{\displaystyle \nu >1}
时为
0
{\displaystyle 0}
,
ν
=
1
{\displaystyle \nu =1}
时未定义 中位數
0
{\displaystyle 0}
眾數
0
{\displaystyle 0}
方差
ν
>
2
{\displaystyle \nu >2}
时为
ν
ν
−
2
{\displaystyle {\frac {\nu }{\nu -2}}\!}
,否则为无穷大 偏度
ν
>
3
{\displaystyle \nu >3}
时为
0
{\displaystyle 0}
峰度
ν
>
4
{\displaystyle \nu >4}
时为
6
ν
−
4
{\displaystyle {\frac {6}{\nu -4}}\!}
熵
ν
+
1
2
[
ψ
(
1
+
ν
2
)
−
ψ
(
ν
2
)
]
+
log
[
ν
B
(
ν
2
,
1
2
)
]
{\displaystyle {\begin{matrix}{\frac {\nu +1}{2}}\left[\psi ({\frac {1+\nu }{2}})-\psi ({\frac {\nu }{2}})\right]\\[0.5em]+\log {\left[{\sqrt {\nu }}B({\frac {\nu }{2}},{\frac {1}{2}})\right]}\end{matrix}}}
ψ
{\displaystyle \psi }
: 双Γ函数 ,
B
{\displaystyle B}
: 贝塔函数 矩生成函数
未定义 特徵函数
K
ν
/
2
(
ν
|
t
|
)
(
ν
|
t
|
)
ν
/
2
Γ
(
ν
/
2
)
2
ν
/
2
−
1
,
ν
>
0
{\displaystyle {\frac {K_{\nu /2}({\sqrt {\nu }}|t|)({\sqrt {\nu }}|t|)^{\nu /2}}{\Gamma (\nu /2)2^{\nu /2-1}}},\;\nu >0}
K
ν
(
x
)
{\displaystyle K_{\nu }(x)}
: 第二类修正貝塞爾函數
学生t分布 (Student's t -distribution),簡稱t 分布 ,在機率論 及统计学 中用于根据小样本來估計母體呈常態分布 且標準差 未知的期望值 。若母體標準差已知,或是样本数足够大时(依據中央極限定理 漸進常態分布 ),则应使用常態分布來進行估計。其為对两个样本期望值差异进行显著性 测试的司徒頓t檢定 之基础。
司徒頓t 檢定改進了Z檢定 (Z-test ),因為在小樣本中,Z檢定以母體標準差 已知為前提,Z檢定用在小樣本會產生很大的誤差,因此必須改用学生t 檢定以求準確。但若在樣本數足夠大(普遍認為超過30個即足夠)時,可依據中央極限定理 近似常態分布,以Z檢定來求得近似值,
在母體標準差數未知的情況下,不論樣本數量大或小皆可應用t 檢定。在待比較的數據有三組以上時,因為誤差無法被壓低,此時可以用變異數分析 (ANOVA)代替t 檢定。
t 分布的推导最早由德國大地测量学家弗里德里希·羅伯特·赫爾默特 于1876年提出,并由德國数学家雅各布·魯洛斯 证明。[ 1] [ 2]
英國人威廉·戈塞 于1908年再次发现并发表了t 分布,当时他还在愛爾蘭都柏林 的吉尼斯 啤酒酿酒厂工作。酒廠雖然禁止員工發表一切與釀酒研究有關的成果,但允許他在不提到釀酒的前提下,以筆名發表t 分佈的發現,所以论文使用了「学生」(Student)这一笔名。之后t 检定以及相关理论经由羅納德·費雪 发扬光大,為了感謝戈塞的功勞,費雪将此分布命名为学生t 分布 (Student's t )。[ 3]
描述
假设
X
{\displaystyle X}
是呈正态分布 的独立的随机变量 (随机变量的期望值 為
μ
{\displaystyle \mu }
,母體變異數 為
σ
2
{\displaystyle \sigma ^{2}}
但其值未知)。
令:
X
¯
n
=
X
1
+
⋯
+
X
n
n
{\displaystyle {\overline {X}}_{n}={\frac {X_{1}+\cdots +X_{n}}{n}}}
为样本期望值 ,
S
n
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
¯
n
)
2
{\displaystyle {S_{n}}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}_{n}\right)^{2}}
为樣本變異數 ,
Z
=
X
¯
n
−
μ
σ
n
{\displaystyle Z={\frac {{\overline {X}}_{n}-\mu }{\frac {\sigma }{\sqrt {n}}}}}
為呈期望值為0變異數為1的常態分布 的随机变量 ,但因母體變異數
σ
2
{\displaystyle \sigma ^{2}}
為未知,因此依史拉斯基定理 以
S
n
2
{\displaystyle {S_{n}}^{2}}
替換之:
T
=
X
¯
n
−
μ
S
n
n
{\displaystyle T={\frac {{\overline {X}}_{n}-\mu }{\frac {S_{n}}{\sqrt {n}}}}}
T 的機率密度函數 是:
f
(
t
)
=
Γ
(
ν
+
1
2
)
ν
π
Γ
(
ν
2
)
(
1
+
t
2
ν
)
−
(
ν
+
1
)
2
{\displaystyle f(t)={\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi \,}}\,\Gamma ({\frac {\nu }{2}})}}(1+{\frac {t^{2}}{\nu }})^{\frac {-(\nu +1)}{2}}}
ν
{\displaystyle \nu }
等于n − 1。
T 的分布称为t 分布 。母數
ν
{\displaystyle \nu }
一般被称为自由度 。
Γ
{\displaystyle \Gamma }
是伽玛函数 。
如果
ν
{\displaystyle \nu }
是偶数,
Γ
(
ν
+
1
2
)
ν
π
Γ
(
ν
2
)
=
(
ν
−
1
)
(
ν
−
3
)
⋯
5
⋅
3
2
ν
(
ν
−
2
)
(
ν
−
4
)
⋯
4
⋅
2
⋅
{\displaystyle {\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi }}\,\Gamma ({\frac {\nu }{2}})}}={\frac {(\nu -1)(\nu -3)\cdots 5\cdot 3}{2{\sqrt {\nu }}(\nu -2)(\nu -4)\cdots 4\cdot 2\,}}\cdot }
如果
ν
{\displaystyle \nu }
是奇数,
Γ
(
ν
+
1
2
)
ν
π
Γ
(
ν
2
)
=
(
ν
−
1
)
(
ν
−
3
)
⋯
4
⋅
2
π
ν
(
ν
−
2
)
(
ν
−
4
)
⋯
5
⋅
3
⋅
{\displaystyle {\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi }}\,\Gamma ({\frac {\nu }{2}})}}={\frac {(\nu -1)(\nu -3)\cdots 4\cdot 2}{\pi {\sqrt {\nu }}(\nu -2)(\nu -4)\cdots 5\cdot 3\,}}\cdot \!}
T 的機率密度函數 的形状类似于期望值为0方差为1的正态分布,但更低更宽。随着自由度
ν
{\displaystyle \nu }
的增加,则越来越接近期望值为0方差为1的正态分布。
t 分布密度 (红色曲线) 在自由度为 1, 2, 3, 5, 10, 30比较于标准正态分布 (蓝色曲线). 前幅图用绿色曲线表示.
1 degree of freedom
2 degrees of freedom
3 degrees of freedom
5 degrees of freedom
10 degrees of freedom
30 degrees of freedom
T 分布的概率累计函数,用不完全贝塔函数 I 表示:
F
(
t
)
=
∫
−
∞
t
f
(
u
)
d
u
=
1
−
1
2
I
x
(
t
)
(
ν
2
,
1
2
)
,
{\displaystyle F(t)=\int _{-\infty }^{t}f(u)\,du=1-{\tfrac {1}{2}}I_{x(t)}\left({\tfrac {\nu }{2}},{\tfrac {1}{2}}\right),}
其中
x
(
t
)
=
ν
t
2
+
ν
.
{\displaystyle x(t)={\frac {\nu }{t^{2}+\nu }}.}
T 分布的矩为:
E
(
T
k
)
=
{
0
k odd
,
0
<
k
<
ν
Γ
(
k
+
1
2
)
Γ
(
n
−
k
2
)
k
/
2
π
Γ
(
n
2
)
k even
,
0
<
k
<
ν
NaN
k odd
,
0
<
ν
≤
k
∞
k even
,
0
<
ν
≤
k
{\displaystyle E(T^{k})={\begin{cases}0&{\mbox{k odd}},0<k<\nu \\{\frac {\Gamma ({\frac {k+1}{2}})\Gamma ({\frac {n-k}{2}})^{k/2}}{{\sqrt {\pi }}\Gamma ({\frac {n}{2}})}}&{\mbox{k even}},0<k<\nu \\{\mbox{NaN}}&{\mbox{k odd}},0<\nu \leq k\\\infty &{\mbox{k even}},0<\nu \leq k\\\end{cases}}}
学生t 分布置信区间的推导
假设数量A 在当T 呈t -分布(T 的自由度 为n − 1)满足
Pr
(
−
A
<
T
<
A
)
=
0.90
{\displaystyle \Pr(-A<T<A)=0.90\,}
这与
Pr
(
T
<
A
)
=
0.95
{\displaystyle \Pr(T<A)=0.95\,}
是相同的
A 是这个概率分布 的第95个百分点
那么
Pr
(
−
A
<
X
¯
n
−
μ
S
n
/
n
<
A
)
=
0.9
,
{\displaystyle \Pr \left(-A<{{\overline {X}}_{n}-\mu \over S_{n}/{\sqrt {n}}}<A\right)=0.9,}
等价于
Pr
(
X
¯
n
−
A
S
n
n
<
μ
<
X
¯
n
+
A
S
n
n
)
=
0.9
{\displaystyle \Pr \left({\overline {X}}_{n}-A{S_{n} \over {\sqrt {n}}}<\mu <{\overline {X}}_{n}+A{S_{n} \over {\sqrt {n}}}\right)=0.9}
因此μ的90%置信区间 为:
X
¯
n
±
A
S
n
n
{\displaystyle {\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}}
计算
现在最方便的计算T分布的办法是使用电子表格软件(如Excel)或查相关在线计算网站。例如,Excel的TDIST(x,v,sides)用来计算自由度为v的T分布,如果第三个参数为1,则给出Pr(T>x);如果第三个参数为2,则计算Pr(T>x Or T<-x).
下表列出了自由度為
ν
{\displaystyle \nu }
的t 分布的單側和雙側區間值。例如,當樣本數量n=5時,則自由度
ν
{\displaystyle \nu }
=4,我們就可以查找表中以4開頭的行。該行第5列值為2.132,對應的單側 值為95%(雙側 值為90%)。這也就是說,T小於2.132的概率為95%(即單側),記為Pr(−∞ < T < 2.132) = 0.95;同時,T值介於-2.132和2.132之間的概率為90%(即雙側),記為Pr(−2.132 < T < 2.132) = 0.9。
這是根據分布的對稱性計算得到的,
Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,
因此,
Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.
注意 關於表格的最後一行的值:自由度為無限大的t- 分布和常態分布等價。
單側
75%
80%
85%
90%
95%
97.5%
99%
99.5%
99.75%
99.9%
99.95%
雙側
50%
60%
70%
80%
90%
95%
98%
99%
99.5%
99.8%
99.9%
1
1.000
1.376
1.963
3.078
6.314
12.71
31.82
63.66
127.3
318.3
636.6
2
0.816
1.061
1.386
1.886
2.920
4.303
6.965
9.925
14.09
22.33
31.60
3
0.765
0.978
1.250
1.638
2.353
3.182
4.541
5.841
7.453
10.21
12.92
4
0.741
0.941
1.190
1.533
2.132
2.776
3.747
4.604
5.598
7.173
8.610
5
0.727
0.920
1.156
1.476
2.015
2.571
3.365
4.032
4.773
5.893
6.869
6
0.718
0.906
1.134
1.440
1.943
2.447
3.143
3.707
4.317
5.208
5.959
7
0.711
0.896
1.119
1.415
1.895
2.365
2.998
3.499
4.029
4.785
5.408
8
0.706
0.889
1.108
1.397
1.860
2.306
2.896
3.355
3.833
4.501
5.041
9
0.703
0.883
1.100
1.383
1.833
2.262
2.821
3.250
3.690
4.297
4.781
10
0.700
0.879
1.093
1.372
1.812
2.228
2.764
3.169
3.581
4.144
4.587
11
0.697
0.876
1.088
1.363
1.796
2.201
2.718
3.106
3.497
4.025
4.437
12
0.695
0.873
1.083
1.356
1.782
2.179
2.681
3.055
3.428
3.930
4.318
13
0.694
0.870
1.079
1.350
1.771
2.160
2.650
3.012
3.372
3.852
4.221
14
0.692
0.868
1.076
1.345
1.761
2.145
2.624
2.977
3.326
3.787
4.140
15
0.691
0.866
1.074
1.341
1.753
2.131
2.602
2.947
3.286
3.733
4.073
16
0.690
0.865
1.071
1.337
1.746
2.120
2.583
2.921
3.252
3.686
4.015
17
0.689
0.863
1.069
1.333
1.740
2.110
2.567
2.898
3.222
3.646
3.965
18
0.688
0.862
1.067
1.330
1.734
2.101
2.552
2.878
3.197
3.610
3.922
19
0.688
0.861
1.066
1.328
1.729
2.093
2.539
2.861
3.174
3.579
3.883
20
0.687
0.860
1.064
1.325
1.725
2.086
2.528
2.845
3.153
3.552
3.850
21
0.686
0.859
1.063
1.323
1.721
2.080
2.518
2.831
3.135
3.527
3.819
22
0.686
0.858
1.061
1.321
1.717
2.074
2.508
2.819
3.119
3.505
3.792
23
0.685
0.858
1.060
1.319
1.714
2.069
2.500
2.807
3.104
3.485
3.767
24
0.685
0.857
1.059
1.318
1.711
2.064
2.492
2.797
3.091
3.467
3.745
25
0.684
0.856
1.058
1.316
1.708
2.060
2.485
2.787
3.078
3.450
3.725
26
0.684
0.856
1.058
1.315
1.706
2.056
2.479
2.779
3.067
3.435
3.707
27
0.684
0.855
1.057
1.314
1.703
2.052
2.473
2.771
3.057
3.421
3.690
28
0.683
0.855
1.056
1.313
1.701
2.048
2.467
2.763
3.047
3.408
3.674
29
0.683
0.854
1.055
1.311
1.699
2.045
2.462
2.756
3.038
3.396
3.659
30
0.683
0.854
1.055
1.310
1.697
2.042
2.457
2.750
3.030
3.385
3.646
40
0.681
0.851
1.050
1.303
1.684
2.021
2.423
2.704
2.971
3.307
3.551
50
0.679
0.849
1.047
1.299
1.676
2.009
2.403
2.678
2.937
3.261
3.496
60
0.679
0.848
1.045
1.296
1.671
2.000
2.390
2.660
2.915
3.232
3.460
80
0.678
0.846
1.043
1.292
1.664
1.990
2.374
2.639
2.887
3.195
3.416
100
0.677
0.845
1.042
1.290
1.660
1.984
2.364
2.626
2.871
3.174
3.390
120
0.677
0.845
1.041
1.289
1.658
1.980
2.358
2.617
2.860
3.160
3.373
∞
{\displaystyle \infty }
0.674
0.842
1.036
1.282
1.645
1.960
2.326
2.576
2.807
3.090
3.291
範例
给定一个样本:样本期望值和方差分别为10和2,样本大小为11(自由度 为10)。根據公式:
X
¯
n
±
A
S
n
n
{\displaystyle {\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}}
可知,使用該方法統計出來的最大值,平均有90%的概率(即90%置信度/信心水準/confidence level)低於:
10
+
1.37218
2
11
=
10.58510.
{\displaystyle 10+1.37218{\frac {\sqrt {2}}{\sqrt {11}}}=10.58510.}
同理,使用該方法統計出來的最小值,平均有90%的概率(即90%置信度/信心水準/confidence level)高於:
10
−
1.37218
2
11
=
9.41490.
{\displaystyle 10-1.37218{\frac {\sqrt {2}}{\sqrt {11}}}=9.41490.}
因此,使用該方法統計出來的最大值和最小值,平均有80%的概率介於:
10
±
1.37218
2
11
=
[
9.41490
,
10.58510
]
{\displaystyle 10\pm 1.37218{\frac {\sqrt {2}}{\sqrt {11}}}=[9.41490,10.58510]}
兩值之間。(需注意此非代表數據的真正期望值介於這兩個值之間的機率為80%,詳情請參見置信区间 。)
參見
參考文獻
^ Pfanzagl, J.; Sheynin, O. A forerunner of the t -distribution (Studies in the history of probability and statistics XLIV) . Biometrika. 1996, 83 (4): 891–898. MR 1766040 . doi:10.1093/biomet/83.4.891 .
^ Sheynin, O. Helmert’s work in the theory of errors. Arch. Hist. Exact Sci. 1995, 49 : 73–104. doi:10.1007/BF00374700 .
^ Moore, David S. Introduction to the Practice of SATISTICS. George P. McCabe, Bruce A. Craig 7th International Edition. New York: W. H. Freeman and Company. 2012: p. 401. ISBN 978-1-4292-8664-0 (英语) .
外部連結
离散 单变量
有限 支集 无限 支集
Β-负二项
博雷尔
康威-麦克斯韦-泊松
离散相型
德拉波特
扩展负二项
弗洛里-舒尔茨
高斯-库兹明
几何
对数
混合泊松
负二项
潘杰
抛物线分形
泊松
斯凯拉姆
尤尔-西蒙
Zeta
连续 单变量
有界区间 支集 半无限区间 支集 整个实线 支集 变动类型 支集
广义卡方
广义极值
广义帕累托
马尔琴科-帕斯图尔
卡尼亚达基斯κ-指数
卡尼亚达基斯κ-伽玛
卡尼亚达基斯κ-韦伯
卡尼亚达基斯κ-逻辑斯谛
卡尼亚达基斯κ-爱尔朗
q-指数
q-高斯
q-韦伯
位移对数逻辑斯谛
图基λ
混合 单变量
多变量 (联合) 方向
单变量(圆)方向
圆均匀
单变量冯·米塞斯
卷绕正态
卷绕柯西
卷绕指数
卷绕非对称拉普拉斯
卷绕列维
双变量(球)
肯特
双变量(环)
双变量冯·米塞斯
多变量
冯·米塞斯-费希尔
宾厄姆
退化 与奇异 族
圆
复合泊松
椭圆
指数
自然指数
位置-尺度
最大熵
混合
皮尔逊
特威迪
卷绕