色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

Python數據正態性檢驗實現過程

瀏覽:23日期:2022-07-29 15:25:40

在做數據分析或者統計的時候,經常需要進行數據正態性的檢驗,因為很多假設都是基于正態分布的基礎之上的,例如:T檢驗。

在Python中,主要有以下檢驗正態性的方法:

1.scipy.stats.shapiro ——Shapiro-Wilk test,屬于專門用來做正態性檢驗的模塊,其原假設:樣本數據符合正態分布。

注:適用于小樣本。

其函數定位為:

def shapiro(x): ''' Perform the Shapiro-Wilk test for normality. The Shapiro-Wilk test tests the null hypothesis that the data was drawn from a normal distribution. Parameters ---------- x : array_like Array of sample data. Returns ------- W : float The test statistic. p-value : float The p-value for the hypothesis test.

x參數為樣本值序列,返回值中第一個為檢驗統計量,第二個為P值,當P值大于指定的顯著性水平,則接受原假設。

2.scipy.stats.kstest(K-S檢驗):可以檢驗多種分布,不止正態分布,其原假設:數據符合正態分布。

其函數定義為:

def kstest(rvs, cdf, args=(), N=20, alternative=’two-sided’, mode=’approx’): ''' Perform the Kolmogorov-Smirnov test for goodness of fit. This performs a test of the distribution G(x) of an observed random variable against a given distribution F(x). Under the null hypothesis the two distributions are identical, G(x)=F(x). The alternative hypothesis can be either ’two-sided’ (default), ’less’ or ’greater’. The KS test is only valid for continuous distributions. Parameters ---------- rvs : str, array or callable If a string, it should be the name of a distribution in `scipy.stats`. If an array, it should be a 1-D array of observations of random variables. If a callable, it should be a function to generate random variables; it is required to have a keyword argument `size`. cdf : str or callable If a string, it should be the name of a distribution in `scipy.stats`. If `rvs` is a string then `cdf` can be False or the same as `rvs`. If a callable, that callable is used to calculate the cdf. args : tuple, sequence, optional Distribution parameters, used if `rvs` or `cdf` are strings. N : int, optional Sample size if `rvs` is string or callable. Default is 20. alternative : {’two-sided’, ’less’,’greater’}, optional Defines the alternative hypothesis (see explanation above). Default is ’two-sided’. mode : ’approx’ (default) or ’asymp’, optional Defines the distribution used for calculating the p-value. - ’approx’ : use approximation to exact distribution of test statistic - ’asymp’ : use asymptotic distribution of test statistic Returns ------- statistic : float KS test statistic, either D, D+ or D-. pvalue : float One-tailed or two-tailed p-value.

參數是:

rvs:待檢驗數據。

cdf:檢驗分布,例如’norm’,’expon’,’rayleigh’,’gamma’等分布,設置為’norm’時表示正態分布。

alternative:默認為雙側檢驗,可以設置為’less’或’greater’作單側檢驗。

model:’approx’(默認值),表示使用檢驗統計量的精確分布的近視值;’asymp’:使用檢驗統計量的漸進分布。

其返回值中第一個為統計量,第二個為P值。

3.scipy.stats.normaltest:正態性檢驗,其原假設:樣本來自正態分布。

其函數定義為:

def normaltest(a, axis=0, nan_policy=’propagate’): ''' Test whether a sample differs from a normal distribution. This function tests the null hypothesis that a sample comes from a normal distribution. It is based on D’Agostino and Pearson’s [1]_, [2]_ test that combines skew and kurtosis to produce an omnibus test of normality. Parameters ---------- a : array_like The array containing the sample to be tested. axis : int or None, optional Axis along which to compute test. Default is 0. If None, compute over the whole array `a`. nan_policy : {’propagate’, ’raise’, ’omit’}, optional Defines how to handle when input contains nan. ’propagate’ returns nan, ’raise’ throws an error, ’omit’ performs the calculations ignoring nan values. Default is ’propagate’. Returns ------- statistic : float or array ``s^2 + k^2``, where ``s`` is the z-score returned by `skewtest` and ``k`` is the z-score returned by `kurtosistest`. pvalue : float or array A 2-sided chi squared probability for the hypothesis test.

其參數:

axis=None 可以表示對整個數據做檢驗,默認值是0。

nan_policy:當輸入的數據中有nan時,’propagate’,返回空值;’raise’ 時,拋出錯誤;’omit’ 時,忽略空值。

其返回值中,第一個是統計量,第二個是P值。

4.scipy.stats.anderson:由 scipy.stats.kstest 改進而來,用于檢驗樣本是否屬于某一分布(正態分布、指數分布、logistic 或者 Gumbel等分布)

其函數定義為:

def anderson(x, dist=’norm’): ''' Anderson-Darling test for data coming from a particular distribution The Anderson-Darling tests the null hypothesis that a sample is drawn from a population that follows a particular distribution. For the Anderson-Darling test, the critical values depend on which distribution is being tested against. This function works for normal, exponential, logistic, or Gumbel (Extreme Value Type I) distributions. Parameters ---------- x : array_like array of sample data dist : {’norm’,’expon’,’logistic’,’gumbel’,’gumbel_l’, gumbel_r’, ’extreme1’}, optional the type of distribution to test against. The default is ’norm’ and ’extreme1’, ’gumbel_l’ and ’gumbel’ are synonyms. Returns ------- statistic : float The Anderson-Darling test statistic critical_values : list The critical values for this distribution significance_level : list The significance levels for the corresponding critical values in percents. The function returns critical values for a differing set of significance levels depending on the distribution that is being tested against.

其參數:

x和dist分別表示樣本數據和分布。

返回值有三個,第一個表示統計值,第二個表示評價值,第三個是顯著性水平;評價值和顯著性水平對應。

對于不同的分布,顯著性水平不一樣。

Critical values provided are for the following significance levels: normal/exponenential 15%, 10%, 5%, 2.5%, 1% logistic 25%, 10%, 5%, 2.5%, 1%, 0.5% Gumbel 25%, 10%, 5%, 2.5%, 1%

關于統計值與評價值的對比:當統計值大于這些評價值時,表示在對應的顯著性水平下,原假設被拒絕,即不屬于某分布。

If the returned statistic is larger than these critical values then for the corresponding significance level, the null hypothesis that the data come from the chosen distribution can be rejected.

5.skewtest 和kurtosistest 檢驗:用于檢驗樣本的skew(偏度)和kurtosis(峰度)是否與正態分布一致,因為正態分布的偏度=0,峰度=3。

偏度:偏度是樣本的標準三階中心矩。

Python數據正態性檢驗實現過程

峰度:峰度是樣本的標準四階中心矩。

Python數據正態性檢驗實現過程

6. 代碼如下:

import numpy as npfrom scipy import statsa = np.random.normal(0,2,50)b = np.linspace(0, 10, 100)# Shapiro-Wilk testS,p = stats.shapiro(a)print(’the shapiro test result is:’,S,’,’,p)# kstest(K-S檢驗)K,p = stats.kstest(a, ’norm’)print(K,p)# normaltestN,p = stats.normaltest(b)print(N,p)# Anderson-Darling testA,C,p = stats.anderson(b,dist=’norm’)print(A,C,p)

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 亚洲无限看 | 成人精品视频一区二区在线 | 国产欧美日韩一区二区三区 | 日本国产在线视频 | 91久久精品国产91久久性色也 | 一级片视频免费观看 | 九九国产精品视频 | 久草观看视频 | 色综合色狠狠天天久久婷婷基地 | 国产成人综合久久精品红 | 中文字幕精品视频 | 97免费视频免费视频 | 神马午夜-午夜片 | 国产亚洲人成网站在线观看不卡 | 男人的天堂免费 | 欧美一级高清视频在线播放 | 92看片淫黄大片一级 | 国产三级理论 | 亚洲国产精品成人久久 | 毛片图片| 国产欧美日韩图片一区二区 | 欧美视频自拍偷拍 | 日本九六视频 | 亚洲综合国产一区在线 | 亚洲99久久久久综合 | 精品欧美一区二区精品久久 | 牛牛a级毛片在线播放 | 亚洲高清视频在线播放 | 亚洲精品国产福利 | 私人毛片免费高清影视院丶 | 国产爽的冒白浆的视频高清 | 精品久久久久久国产免费了 | 久久99精品视香蕉蕉 | 精品国产v无码大片在线观看 | 色青青草原桃花久久综合 | 欧美视频一区在线观看 | 亚洲精品一区 | 在线看片 在线播放 | 欧美日韩在线国产 | 国产21区| 手机在线看片福利 |