Veri analizine başlamadan önce verinizin normal dağılıma sahip olup olmadığını iki şekilde anlayabilirsiniz:
- Grafiksel yöntemler(Histogram Grafiği vs.)
- İstatistik yöntemler(hapiro-Wilk testi ve Kolmogorov-Smirnov testi)
Resim 1: "kusursuz" Normal Olasılık Dağılımı(Histogram ile gösterimi)
R'da Normallik Testi Yöntemleri
- Grafiksel yöntemler dağılımın normal olup olmadığına yönelik hızlı bir fikir edinmeye yardımcı olacaktır. (Örneğin: Histogram Grafiği)
- İstatistiksel olarak verinin normal dağılım gösterip göstermediğine bakmak için normallik testleri uygularız. (Örneğin: Shapiro-Wilk testi ve Kolmogorov-Smirnov testi)
1- R'da Histogram Grafiği Çizimi
Örnek bir vektör içindeki verilerin(Öğrencilerin Sınav Notları) Histogram grafiğini çizdirelim:
sinav_notlari<-c(40, 52, 65, 15, 30, 100, 90, 55, 45, 74, 80, 36, 25, 65, 60, 40, 45, 78, 50, 70)
hist(sinav_notlari, breaks = "Sturges", freq = NULL, right = TRUE, col = c('#5799c6'), main="Sınav Notları | R")
Resim 2: R Histogram Grafiği Çizimi
Bu grafiğe hızlıca göz atarak normal dağılım ile ilgili belirli bir yorum yapılabilir ancak İstatistiksel olarak ayrı bir test daha yapabiliriz.
2- Shapiro-Wilk Normallik Testi
Testimizi yapalım:
sinav_notlari<-c(40, 52, 65, 15, 30, 100, 90, 55, 45, 74, 80, 36, 25, 65, 60, 40, 45, 78, 50, 70)
shapiro.test(sinav_notlari)
Shapiro-Wilk normality test
data: sinav_notlari
W = 0.99021, p-value = 0.9984
Hipotez:
Öncelikle Hipotezimizi yazalım:
- H0: Veriler Normal Dağılıma sahiptir.
- H1: Veriler Normal Dağılıma sahip değildir.
Yorum:
Yanılma Olasılığı: Yanılma olasılığı olarak α = 0.05 olarak seçilmiştir(p anlamlılık düzeyi %5 alınmıştır).
p-value = 0.9984 olarak hesaplanmıştı, bu değer yanılma olasılığından büyük olduğu için( 0.9984 >0.05 ), H0 Hipotezi reddedilemez. Yani α = 0.05 anlamlılık düzeyinde(95% güven seviyesinde) veriler Normal Dağılıma sahiptir diyebiliriz.