总体和样本的估计
总体均值、样本均值与点估计量
假设一个情境:曼帝糖果公司得到了超长效口香糖球的无偏样本,他们对样本中的每一粒糖球进行测试,得到了关于样本糖球口味持续时间的大量数据。
61.962.663.364.865.166.467.167.268.769.9
现在,求糖球总体的口味持续时间的均值和方差。
估计总体均值
如果样本是无偏样本,那么样本的糖球与总体糖球的口味持续时间相符,也就是说,我们求出样本的均值,然后将样本均值作为总体均值。
虽然不能说这两者完全吻合,但这是我们能做出的最好估计。
在我们根据手头信息得到的数值中,样本均值是最有可能被作为总体均值的数值。样本均值被称为总体均值的点估计量,也就是说,作为一个基于样本数据的计算结果,它给出了总体均值的良好估计。
点估计量及其符号
在此之前,我们用到过一些总体参数的实际值,如均值μ,或方差σ2σ^2σ2。我们要么能够自己动手算出这些数值,要么已经知道这些数值是多少。
而这一次,我们不知道总体参数的确切数值。我们无法通过总体计算这些参数,而只能通过样本数据估计这些参数。于是,我们用“点估计量”对总体参数进行最接近的猜测。
一个总体参数的点估计量就是可用于估计总体参数数值的某个函数或算式,例如,由于我们能用样本均值估计总体均值,因此样本均值就是总体均值的点估计量。
我们用符号^区别实际总体参数和它的点估计量,例如:用符号μ表示总体均值,而用μ^\hat{\mu}μ^表示样本均值,即,为了指出你正在使用的是某一个总体参数的点估计量,则在该总体参数的符号上方标上^。
样本均值及其符号
符号μ具有十分精确的含义一总体的均值。为了不至于混淆,样本均值另有一种表示方法:x‾\overline{x}x(读作“x拔”)。这样一来,当别人说到 u 时,我们就知道是指总体均值;说到x‾\overline{x}x时,就知道是指样本均值。
x‾\overline{x}x是μ的样本对等量,它的计算方法和总体均值的计算方法一样 一 将样本中的所有数据加起来,除以总数。即,如果样本大小为n,则:
我们可以根据上式写出总体的点估计量的简明表达式,由于可以用样本均值估计总体均值,因此:
μ^=x‾\hat{\mu} = \overline{x} μ^=x
问:均值就是均值,怎么用这么多符号来表示?
答:用到的概念有三个:总体均值、样本均值以及总体均值的点估计量。
总体均值用μ\muμ表示,本书前面一直在讲的就是这种均值,其计算方法是:将总体中的所有数据相加,然后除以数据个数之和。
样本均值用x‾\overline{x}x表示,计算方法同μ\muμ,不过这时用的是样本中的数据。x‾\overline{x}x的算法是:将样本中的所有数据相加,然后除以样本个数之和。
点估计量用μ^\hat{\mu}μ^表示,它其实是根据样本数据得出的对你所认为的总体均值的最佳猜测值。
问:这是不是意味着我们只要算出样本均值就能求出μ?
答:我们无法通过样本求出μ\muμ的确切数值,不过,只要样本是无偏的,就能得出十分接近的估计值。即,我们可以利用样本数据求出μ^\hat{\mu}μ^,但无法求出山本身的真值。
问:如果样本是有偏的会怎么样?如何计算μ的估计值?
答:尽量让样本无偏的重要性就体现在这里。如果你手头的数据都来自样本,那么就要将样本作为估计基础。如果样本有偏,就意味着山的估计值有可能不准确,有可能因此做出错误的估计。
总体方差、估计总体方差与总体方差点估计量
现在我们试试求总体方差的良好估计,或者说总体方差的点估计量σ^2\hat{\sigma}^2σ^2。
总体方差不像“总体均值一样直接等于样本均值”。因为方差量度数值与均值的偏离程度。当你选择一个样本后,相比总体,你拥有的数值数量变少了,因此,与总体中的数值偏离均值的程度相比,样本中的数值更有可能以更紧密的方式聚集在均值周围 — 极端数值出现在样本中的可能性下降,这是因为总的来说这样的数值变少了。
因此,样本方差的结果会略小于总体方差,差别程度取决于样本数值的大小。样本较小时,样本方差与总体方差的差别有可能更大。
我们需要用一个更好的式子估计总体方差,这个式子就是:
σ^2=∑(x−x‾)2n−1\hat{\sigma}^2 = \frac{\sum(x-\overline{x})^2}{n-1} σ^2=n−1∑(x−x)2
其中σ^2\hat{\sigma}^2σ^2为总体方差估计量。即,取样本中的每一个取值,减去样本均值,所得之差取平方数;然后将所有平方值加起来,除以样本数减1。这个算法与样本方差的算法相似,不过除数是n-1,而不是n。
这个公式与总体方差的数值更接近。
一组数字除以 n-1 的结果大于这一组数字除以 n 的结果,当 n 相当小时,这种差别最为显著。也就是说,通过公式算得的结果与样本数据的方差近似,但会略微偏大。
总体方差往往大于样本数据的方差,因此,用这个公式作为总体方差的点估计量,效果更好一点儿。
总体方差和估计总体方差的区别
总体方差点估计量的式子通常写作s2s^2s2,由此得到σ^2=s2=∑(x−x‾)2n−1\hat{\sigma}^2=s^2=\frac{\sum(x-\overline{x})^2}{n-1}σ^2=s2=n−1∑(x−x)2。
这种表示方法类似于用x‾\overline{x}x表示样本均值。
小知识:标准差的估计量等于方差估计量的平方根。
【读书笔记->统计学】11-01 总体和样本的估计-总体均值 样本均值 点估计量 总体方差 估计总体方差概念简介