中位数
此条目需要补充更多来源。 (2014年7月21日) |
统计学上,中位数(英语:Median),又称中央值[1]、中值,是一个样本、种群或概率分布中之一个数值,其可将数值集合划分为数量相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数。
一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。
设连续随机变量X的分布函数为F(X),那么满足条件P(X≤m)=F(m)=1/2的数称为X或分布F的中位数。
对于一组有限个数的数据来说,其中位数是这样的一种数:这群数据的一半的数据比它大,而另外一半数据比它小。
计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中位数。
公式
实数 按大小顺序(顺序,降序皆可)排列为 、
实数数列 的中位数 为
其中 odd number 表示奇数,even number 表示偶数。
中位数特性
中位数在描述统计学上和平均数、众数并列为数据的集中趋势。三者的位置排序亦对应着偏度的正负偏态意义。一般而言,平均数是最常被使用做为数据的集中趋势,但如果有极端值存在,平均数的代表性降低,也就所谓的“男人女人平均一颗睾丸”的问题,因此在有极端值的状况下,中位数是比较好的集中趋势代表。因此,在各国的每人所得分布上,通常以中位数代表集中趋势,而非平均数[2]。
中位数通常出现在描述统计学和非参数统计,有母数的统计分析很少提及。中位数为集中趋势时,对应的离散趋势系数为平均绝对离差(Mean absolute deviation, MAD)或是四位位距(Q3 - Q1)。不过如果论及总体中位数的统计量时,仍需根据统计分析对抽样分配的要求,寻找总体中位数统计量的期望与方差,再依照点估计的充分、无偏、效率、一致性进行讨论。而总体中位数的统计量通常是样本中位数。因此,样本中位数的期望与方差就值得被讨论,进行基础研究。
正态分配下的中位数
正态分配下的平均数、中位数、众数都是同一个位置。目前最为世人熟知的是平均数的抽样分配会是正态分配,期望为总体平均数 且方差为总体方差( )。统计学对正态分配的总体平均数统计量说明甚多,并发展完善。那么中位数可基于概率分配模拟器和数值分析发展,在n个独立随机变量来自正态分配可生成n个随机样本,则E(样本中位数)= 且Var(样本中位数)= ,其中,k(n)受到样本个数(n)影响。当样本个数介于2至200时,两者的关系不明显,但可计算出样本个数和k(n)的关联表[3]。
n | k(n) | n | k(n) | n | k(n) |
---|---|---|---|---|---|
2 | 0.500267128 | 70 | 0.021985179 | 138 | 0.011271806 |
3 | 0.448703237 | 71 | 0.021403637 | 139 | 0.011269587 |
4 | 0.298172500 | 72 | 0.021393271 | 140 | 0.011109049 |
5 | 0.286770401 | 73 | 0.020840845 | 141 | 0.011111745 |
6 | 0.214713620 | 74 | 0.020830427 | 142 | 0.010959968 |
7 | 0.210476952 | 75 | 0.020295864 | 143 | 0.010962027 |
8 | 0.168172011 | 76 | 0.020294599 | 144 | 0.010810205 |
9 | 0.166171644 | 77 | 0.019776971 | 145 | 0.010809127 |
10 | 0.138304145 | 78 | 0.019777466 | 146 | 0.010661452 |
11 | 0.137221972 | 79 | 0.019291777 | 147 | 0.010659591 |
12 | 0.117603985 | 80 | 0.019294767 | 148 | 0.010513172 |
13 | 0.116875871 | 81 | 0.018831955 | 149 | 0.010523498 |
14 | 0.102209683 | 82 | 0.018826854 | 150 | 0.010377973 |
15 | 0.101704592 | 83 | 0.018394657 | 151 | 0.010379735 |
16 | 0.090397468 | 84 | 0.018390467 | 152 | 0.010244606 |
17 | 0.090046842 | 85 | 0.017972657 | 153 | 0.010247290 |
18 | 0.081017991 | 86 | 0.017972309 | 154 | 0.010109136 |
19 | 0.080776427 | 87 | 0.017567447 | 155 | 0.010114347 |
20 | 0.073450103 | 88 | 0.017564340 | 156 | 0.009986419 |
21 | 0.073284584 | 89 | 0.017187295 | 157 | 0.009984465 |
22 | 0.067168338 | 90 | 0.017189110 | 158 | 0.009862704 |
23 | 0.067002164 | 91 | 0.016812903 | 159 | 0.009858886 |
24 | 0.061881619 | 92 | 0.016813666 | 160 | 0.009735345 |
25 | 0.061762647 | 93 | 0.016466660 | 161 | 0.009736185 |
26 | 0.057309720 | 94 | 0.016462668 | 162 | 0.009617128 |
27 | 0.057271174 | 95 | 0.016125488 | 163 | 0.009619325 |
28 | 0.053440064 | 96 | 0.016119237 | 164 | 0.009501480 |
29 | 0.053332370 | 97 | 0.015802880 | 165 | 0.009502525 |
30 | 0.049992614 | 98 | 0.015797856 | 166 | 0.009389839 |
31 | 0.049937448 | 99 | 0.015492872 | 167 | 0.009388423 |
32 | 0.047029351 | 100 | 0.015490432 | 168 | 0.009279058 |
33 | 0.046965211 | 101 | 0.015190773 | 169 | 0.009277712 |
34 | 0.044337988 | 102 | 0.015189776 | 170 | 0.009169514 |
35 | 0.044336558 | 103 | 0.014904567 | 171 | 0.009169768 |
36 | 0.041990927 | 104 | 0.014896640 | 172 | 0.009061071 |
37 | 0.041942218 | 105 | 0.014628725 | 173 | 0.009060657 |
38 | 0.039852927 | 106 | 0.014623638 | 174 | 0.008961003 |
39 | 0.039832458 | 107 | 0.014359452 | 175 | 0.008957769 |
40 | 0.037939073 | 108 | 0.014359166 | 176 | 0.008860612 |
41 | 0.037904745 | 109 | 0.014100614 | 177 | 0.008859363 |
42 | 0.036184274 | 110 | 0.014104129 | 178 | 0.008762802 |
43 | 0.036152192 | 111 | 0.013856818 | 179 | 0.008760489 |
44 | 0.034579591 | 112 | 0.013854712 | 180 | 0.008665028 |
45 | 0.034577569 | 113 | 0.013609600 | 181 | 0.008663662 |
46 | 0.033133177 | 114 | 0.013610680 | 182 | 0.008571695 |
47 | 0.033118807 | 115 | 0.013383360 | 183 | 0.008570240 |
48 | 0.031791145 | 116 | 0.013382329 | 184 | 0.008475410 |
49 | 0.031783399 | 117 | 0.013153728 | 185 | 0.008477845 |
50 | 0.030548873 | 118 | 0.013156167 | 186 | 0.008388634 |
51 | 0.030533811 | 119 | 0.012938560 | 187 | 0.008384818 |
52 | 0.029411882 | 120 | 0.012939455 | 188 | 0.008300454 |
53 | 0.029402885 | 121 | 0.012729706 | 189 | 0.008300175 |
54 | 0.028347691 | 122 | 0.012731381 | 190 | 0.008214157 |
55 | 0.028342062 | 123 | 0.012533040 | 191 | 0.008211878 |
56 | 0.027348747 | 124 | 0.012525181 | 192 | 0.008130539 |
57 | 0.027350473 | 125 | 0.012333899 | 193 | 0.008128310 |
58 | 0.026442809 | 126 | 0.012334408 | 194 | 0.008045347 |
59 | 0.026436289 | 127 | 0.012141084 | 195 | 0.008041810 |
60 | 0.025573242 | 128 | 0.012138522 | 196 | 0.007964784 |
61 | 0.025575279 | 129 | 0.011964057 | 197 | 0.007961234 |
62 | 0.024780610 | 130 | 0.011961887 | 198 | 0.007882679 |
63 | 0.024751923 | 131 | 0.011782874 | 199 | 0.007882009 |
64 | 0.024005574 | 132 | 0.011779941 | 200 | 0.007806200 |
65 | 0.024006688 | 133 | 0.011604216 | 201 | 0.007801090 |
66 | 0.023304209 | 134 | 0.011600908 | 202 | 0.007729016 |
67 | 0.023287460 | 135 | 0.011433315 | 203 | 0.007728333 |
68 | 0.022616908 | 136 | 0.011438587 | 204 | 0.007654504 |
69 | 0.022624425 | 137 | 0.011271806 | 205 | 0.007652196 |
如果样本个数超过200,但不超过1000时,两者有明显的关系,并且受到样本个数是否为奇数或偶数影响。此时可使用回归分析寻找两者的关系。
1. 样本个数为偶数,回归式为k(n) = 0.0000148965 + 1.5599936862 / n。
2. 样本个数为奇数,回归式为k(n) = 0.0000084608 + 1.5674001064 / n。
由此可得到样本中位数的方差和总体正态分配的方差形成稳定的对应关系[4]。
参考文献
- ^ median - 中央值;中位數;正中的 - 國家教育研究院雙語詞彙. 国家教育研究院. [2022-04-21]. (原始内容存档于2018-11-24) (中文(台湾)).
- ^ 台北市政府主计处,台北市家庭所得概况,民国106年。(连结 (页面存档备份,存于互联网档案馆))
- ^ (PDF) Source code of how to run sample median's variance. ResearchGate. [2021-10-21]. doi:10.13140/rg.2.2.16784.23041 (英语).
- ^ (PDF) The Relationships between Variances of Normal Distribution and Sample Median: Sample size from 200 to 1000. ResearchGate. [2021-10-31]. doi:10.13140/rg.2.2.12462.13124/1 (英语).
外部链接
- Calculating the median
- A problem involving the mean, the median, and the mode.(页面存档备份,存于互联网档案馆)
- mathworld: Statistical Median(页面存档备份,存于互联网档案馆)
本条目含有来自PlanetMath《Median of a distribution》的内容,版权遵守知识共享协议:署名-相同方式共享协议。