#寻找真知派#如上一篇文章所述,样本所属总体服从正态分布是数据分析和数据挖掘等数据处理的重要前提。如果我们采集的样本并不能确认其总体是否服从正态分布,那么数据处理的结果就是不可靠的。因此,对样本数据进行正态分布检验十分必要。常用的正态分布检验方法有以下几种:
1.基于偏度和峰度的假设检验
基于偏度-峰度的检验是利用了正态分布偏度(3阶矩)和峰度(4阶矩)都为0的特点。
如果样本数据能满足偏度和峰度均为0的假设,则可以认为总体服从正态分布。由于该检验是基于偏度检验和峰度检验的,样本数量需要8个以上。以下normaltest函数就使用该原理进行正态分布检验。
scipy.stats.normaltest(X)
该函数输出两个结果,第一个为检验统计量,第二个为p值。如果p值大于0.05(常用显著水平)即可认定总体服从正态分布。
使用偏度和峰度拟合优度检验的还有Jarque–Bera检验法。其统计量为
S为偏度,K为峰度,n为样本数或自由度