Biyoinformatik dünyasına kaliteli, özgün ve Türkçe içerikler kazandırmayı hedefleyen bir platform..

friends friends friends

Descriptive Statistics (Tanımlayıcı İstatistik)

Descriptive Statistics (Tanımlayıcı İstatistik) ya da merkezi eğilim ölçüleri olarak biline tanımlamalar aşağıdaki gibidir.

Aritmetik Ortalama

Gözlenen değerlerin tümünün toplanıp, gözlem sayısına bölündüğünde elde edilen değere aritmetik ortalama denir. Günlük hayatta çok sık kullanılan bir ortalamadır.

Aritmetik Ortalama
Aritmetik Ortalama

Geometrik Ortalama

n tane sayının çarpımının n. kuvvetten köküne bu sayıların geometrik ortalaması denir. Mikroorganizmaların çoğalması, nufus artışı, fiyat artışı gibi birbirinin katları olarak çoğalan yani geometrik artış gösteren verilerde ortalama hesaplamak için kullanılan bir ortalama ölçüsüdür.

Geometrik Ortalama
Geometrik Ortalama

Harmonik Ortalama

Harmonik ortalama, gözlem sonuçlarının terslerinin aritmetik ortalamasının tersidir.

Harmonik Ortalama
Harmonik Ortalama

Mod(Tepe Değer)

Bir sayı dizisinde en çok tekrarlanan değere mod denir.

Mod(Tepe Değer)
Mod(Tepe Değer)

Medyan(Ortanca)

Veriler küçükten büyüğe dizildiğinde ortadaki değerdir. Bu nedenle ortanca olarak da ifade edilmektedir.

Medyan(Ortanca)
Medyan(Ortanca)

Varyans(Değişim)

Varyans(Variance), verilerin (notların) aritmetik ortalamadan farklarının karelerinin aritmetik ortalamasıdır. Standart sapmanın karesidir. Veri sayısı arttıkça gerçek varyansa yaklaşılır.

Varyans
Varyans

Standart Sapma

Verilerin (notların) aritmetik ortalamadan farklarının karelerinin aritmetik ortalamasının kare köküdür. Yani varyansın karaköküdür. Standart Sapma, verilerin nasıl dağıldığını gösterir.

Standart Sapma
Standart Sapma

Varyasyon Katsayısı(VK-Değişim Katsayısı)

Standart sapma dağılımın yaygınlığı hakkında bilgi verir ancak bulduğumuz standart sapma değeri örneğin:6, büyük müdür küçük müdür karar vermemiz mümkün değildir. Buna karar vermek için varvasyon katsayısını hesaplamamız gerekir.

Varyasyon katsayısı(measures of variation-CV), standart sapmanın ortalamaya göre yüzde kaçlık bir değişim gösterdiğini belirtir. Genellikle %25'in altındaki VK normal, üzerindeki VK değerleri ise anormal olarak kabul edilir.

Varvasyon Katsayısı
Varvasyon Katsayısı

Standart Hata(Standard Error)

Standart sapma değerinin gözlem sayısının kareköküne bölünmesi ile elde edilen değerdir. Aritmetik ortalamada oluşan hatanın belirlenmesi için bulunur. Student t-testinde SE değerleri kullanılmaktadır.

Standart Hata(Standard Error)
Standart Hata(Standard Error)

Kovaryans

....

Skewness(Çarpıklık)

Çarpıklık (skewness) katsayısı normal dağılımda 0’dır. Çarpıklık Katsayısı, veri kümesinin dağılımının ne kadar çarpık olduğunu gösterir. Eğer veri kümesinin dağılımı simetrikse, çarpıklık katsayısı 0 olur. Eğer veri kümesinin dağılımı sola doğru çarpık ise, çarpıklık katsayısı negatif değer alır. Eğer veri kümesinin dağılımı sağa doğru çarpık ise, çarpıklık katsayısı pozitif değer alır.

Skewness(Çarpıklık)
Skewness(Çarpıklık)

Basıklık

Basıklık katsayısı, veri kümesinin dağılımının ne kadar simetrik olduğunu gösterir. Eğer veri kümesinin dağılımı simetrikse, basıklık katsayısı 0 olur. Eğer veri kümesinin dağılımı sola doğru basık ise, basıklık katsayısı negatif değer alır. Eğer veri kümesinin dağılımı sağa doğru basık ise, basıklık katsayısı pozitif değer alır.

Ranj(Açıklık)

Ranj(Açıklık), bir veri seti içindeki en büyük değer ile en küçük değer arasındaki farktır.

Ranj(Açıklık)
Ranj(Açıklık)

Ortalama Sapma

Ortalama sapma, veri kümesinde bulunan tüm değerlerin ortalama değerine olan uzaklıklarının toplamının, veri sayısına bölünmesiyle hesaplanır. Eğer veri kümesinin ortalama sapma değeri büyükse, veri kümesinin dağılımı daha dağınık demektir.

Ortalama Sapma
Ortalama Sapma

Korelasyon Katsayısı ve Önem Kontrolü

Verilerin standart eğriye ne kadar uyumlu olduğunu ifade eder. Standart eğrinin doğrusallığını yansıtır. İdeal olan R2 değeri 1dir.

İki veya daha fazla sayıda değişken arasında bir ilişki bulunup bulunmadığı, eğer varsa bu ilişkinin derecesi ve fonksiyonel şekli bulunmaya çalışılır.

Korelasyon
Korelasyon

Bulunan korelasyonun gerçekten önemli olup olmadığı incelenirse:

Bulunan korelasyon önemli mi?
Bulunan korelasyon önemli mi?

Tanımlayıcılık Katsayısı(R2)

Tanımlayıcılık katsayısı, korelasyon katsayısının (r) karesidir. R2 sembolüyle gösterilir. Bağımlı değişkendeki değişimin yüzde ne kadarının bağımsız değişken tarafından tanımlanabildiğini gösteren bir ölçüdür.

Örneğin: gebelik ve hemoglobin değerleri arasındaki korelasyon katsayısının r= -0.74 olduğunu varsayalım. Buna göre tanımlayıcılık katsayısı R2=(0.74)2=0.55 olur. Elde edilen sonuca göre; hemoglobin değerindeki değişimin ancak %55'inin gebelik sayısı ile tanımlanabildiğini, dolayısıyla hemoglobin değerlerindeki değişimin %45'inin de başka değişkenlerce tanımlanmakta olduğunu söyleyebiliriz.

Sampling Error

Örnek sayısı ne kadar fazla ise sampling error o kadar azalır, başarı iyi demektir.

Sampling Error
Sampling Error

Confidence Level

Confidence Level(Güven seviyesi), bir örneklemin sonuçlarının nihai popülasyonun sonuçlarına ne kadar benzediği hakkında bir tahmin yapılırken kullanılır. Örneğin, bir örneklemin sonuçlarının nihai popülasyonun sonuçlarına %95 benzediği varsayılırsa, bu örneklemin güven seviyesi %95 olarak belirlenir. Bu, örneklemin sonuçlarının nihai popülasyonun sonuçlarına ne kadar yakın olduğu anlamına gelir.

Percentile Hesaplama

Verilerin sıralı olması gerekir, eğer veriler sıralı değilse önce küçükten büyüğe sıralama yapılır. Hesaplanan persentil değerleri daha sonra IQR ve Outlier hesaplamalarında kullanılmaktadır.

Decile Hesaplama
Decile Hesaplama

IQR ve Outlier Hesaplama

IQR değeri, Outlier değerlerin belirlenmesi için bir basamak olarak kullanılır.

Outlier değerlerin varlığı, veri kümesinin dağılımının ne kadar düzgün olduğunu gösterir. Eğer veri kümesinde çok sayıda outlier değer varsa, bu veri kümesinin dağılımının daha dağınık olduğu anlamına gelebilir. Outlier değerler, veri kümesinin ortalama değerini etkileyebileceğinden, bu değerlerin etkilerinin ortadan kaldırılması gerekebilir.

Verilerin sıralı olması gerekir, eğer veriler sıralı değilse önce küçükten büyüğe sıralama yapılır.

IQR ve Outlier Hesaplama
IQR ve Outlier Hesaplama
korelasyon standart sapma standart hata varyans aritmetik ortalama Temel İstatistik İşlemleri measures of variation Varvasyon Katsayısı
0 Beğeni
Önceki Yazı

Moleküler Markörler

04 Eyl. 2022 tarihinde yayınlandı.
Sonraki Yazı

Veri Türleri

04 Eyl. 2022 tarihinde yayınlandı.
arrow