Veri, ham gözlem ve ölçümlerden elde edilir. Dolayısıyla ham veriler temiz gelmezler ve onları işlemek gerekir. Veri ön işlemede hedef verideki hatalar, kayıp değerler, aykırı değerler ve diğer tutarsızlıklar temizlenerek ön işlemden geçirilmiş temiz veri elde edilir. Örneğin bazı verileri ölçen cihazlar yanlış sonuçlar üretebilir ya da doğru ölçülmüş veriyi, uzmanlar hatalı bir değer olarak kaydedebilirler. Hatta bazen bir değişken değeri hiç girilmemiş olabilirken bazen de çok aykırı bir değer de girilmiş olabilir. Tün bu etkenler verinin kalitesini düşürür ve veriyi kirletir. Makine öğrenmesi algoritmalarında ve veri bilimi dünyasında bu verileri kullanarak doğru tahmin, sınıflama ya da kümeleme yapabilmek için ham verilerin iyi işlenmiş temiz veri olması gerekir. Bu yazımızda ham veriden başlayarak işlenmiş temiz veriye doğru tüm adımları teker teker göreceğiz.
Veri Kontrolü
Veriye ilk baktığımızda eğer çeşitli tutarsızlıklar varsa bunları konrol etmek ve düzeltmek gerekir. Örneğin yaş değişkenine -50 değeri girilmiş olması bu verinin tutarsız olduğunu gösterir. Çünkü yaş değişkeni negatif bir değer alamaz. Ayrıca tam sayı olması beklenen bir değişkene kesirli bir sayı girilmesi ya da harflerden oluşan değerlerin girilmesi yine açık bir tutarsızlık örneğidir.
Tutarsızlık Kontrolü
Veri analizinde en çok zaman alan ve belki de en sıkıcı işlemlerden biri veri setindeki tutarsızlıkların kontrolü ve düzeltilmesidir. Aşağıdaki örnekte çok sayıda tutarsızlık bulunmaktadır.
Teklik Kontrolü: Veri setinde personelID'si 222 olan Bilge Yıldırım adına 2 kayıt var(6 ve 11. satır)
Tamlık Kontrolü: personelID'si 219 olan Emine Ormancı'nın kilosu kaydedilmemiş. Başka bir eksik veri ise personelID'si 226 olan Yılmaz Özbek'in yaş değeri (-) olarak girilmiş yani eksik veri.
Doğruluk Kontrolü: personelID'si 225 olan Eda Şimşek'in yaşı 144 girilmiş ancak bu değer muhtemelen yanlış girilmiş çünkü 144 yaşında bir personelin olması düşük bir ihtimal. Ayrıca personelID'si 224 olan İsmail Şahin'in kilosu 580,5 olarak yanlış kayıt edilmiş.