Biyoinformatik dünyasına kaliteli, özgün ve Türkçe içerikler kazandırmayı hedefleyen bir platform..

friends friends friends

Veri Önişleme Adımları

Veri, ham gözlem ve ölçümlerden elde edilir. Dolayısıyla ham veriler temiz gelmezler ve onları işlemek gerekir. Veri ön işlemede hedef verideki hatalar, kayıp değerler, aykırı değerler ve diğer tutarsızlıklar temizlenerek ön işlemden geçirilmiş temiz veri elde edilir. Örneğin bazı verileri ölçen cihazlar yanlış sonuçlar üretebilir ya da doğru ölçülmüş veriyi, uzmanlar hatalı bir değer olarak kaydedebilirler. Hatta bazen bir değişken değeri hiç girilmemiş olabilirken bazen de çok aykırı bir değer de girilmiş olabilir. Tün bu etkenler verinin kalitesini düşürür ve veriyi kirletir. Makine öğrenmesi algoritmalarında ve veri bilimi dünyasında bu verileri kullanarak doğru tahmin, sınıflama ya da kümeleme yapabilmek için ham verilerin iyi işlenmiş temiz veri olması gerekir. Bu yazımızda ham veriden başlayarak işlenmiş temiz veriye doğru tüm adımları teker teker göreceğiz.

Veri Kontrolü

Veriye ilk baktığımızda eğer çeşitli tutarsızlıklar varsa bunları konrol etmek ve düzeltmek gerekir. Örneğin yaş değişkenine -50 değeri girilmiş olması bu verinin tutarsız olduğunu gösterir. Çünkü yaş değişkeni negatif bir değer alamaz. Ayrıca tam sayı olması beklenen bir değişkene kesirli bir sayı girilmesi ya da harflerden oluşan değerlerin girilmesi yine açık bir tutarsızlık örneğidir.

Tutarsızlık Kontrolü

Veri analizinde en çok zaman alan ve belki de en sıkıcı işlemlerden biri veri setindeki tutarsızlıkların kontrolü ve düzeltilmesidir. Aşağıdaki örnekte çok sayıda tutarsızlık bulunmaktadır.

Personel Verileri
Personel Verileri

Teklik Kontrolü: Veri setinde personelID'si 222 olan Bilge Yıldırım adına 2 kayıt var(6 ve 11. satır)

Tamlık Kontrolü: personelID'si 219 olan Emine Ormancı'nın kilosu kaydedilmemiş. Başka bir eksik veri ise personelID'si 226 olan Yılmaz Özbek'in yaş değeri (-) olarak girilmiş yani eksik veri.

Doğruluk Kontrolü: personelID'si 225 olan Eda Şimşek'in yaşı 144 girilmiş ancak bu değer muhtemelen yanlış girilmiş çünkü 144 yaşında bir personelin olması düşük bir ihtimal. Ayrıca personelID'si 224 olan İsmail Şahin'in kilosu 580,5 olarak yanlış kayıt edilmiş.

0 Beğeni
Önceki Yazı

Tüm genomu bilmenin ne gibi faydaları olabilir?

03 Mart 2023 tarihinde yayınlandı.
Sonraki Yazı

Genotipleme Nedir?

03 Mart 2023 tarihinde yayınlandı.
arrow