PED, MAP, BED, FAM ve BIM dosya formatları, PLINK programına ait dosya formatlarıdır. PLINK programına ait bu dosya formatları dışında yaygın olarak HapMap, VCF ve Structure genotip dosya formatları da kullanılmaktadır.
Resim 1: Genotip Dosya Formatları ve PLINK Dosya Formatları
İşlenmemiş(ham) varyant genotip verileri, genellikle insanlar tarafından kolayca incelenebilen basit metin tabanlı dosya formatları olan Variant Call Format (VCF) dosyalarında saklanmaktadır. Ancak, PLINK gibi araçlar, VCF dosyalarını doğrudan kullanmazlar ve bunun yerine önce VCF dosyalarını PED formatına veya BED dosyasına dönüştürürler. Gerçek analizde metin tabanlı PED versiyonu yerine binary kodlanmış bir BED dosyası kullanmak daha yaygındır. Ayrıca, PLINK, BED dosyalarıyla birlikte en az iki tamamlayıcı dosya gerektirir: BIM ve FAM dosyaları
PED (*.ped) Dosyası
Boşlukla (space veya tab) ile ayrılmış düz metin dosyalarıdır. MAP dosyası ile beraber bulunur. PED dosyası içinde pedigree, genotip ve fenotip veriler bulunur. Her satır bir bireyi ifade etmektedir. Dosya boyutu büyüktür. İlk 6 kolon zorunludur ve FAM dosyası ile aynıdır fakat aşağıda nümerik kodlanmıştır. İlk 6 kolondan sonra çok sayıda kolon olabilir. Kolonlar sırasıyla:
- Family ID - Aile Kimlik Numarası (100,101,102….)
- Individual ID - Birey Kimlik Numarası (100002140, 100003600…)(eşsiz)
- Paternal ID - Baba Kimlik Numarası (0 =baba yok)
- Maternal ID - Anne Kimlik Numarası (0 = anne yok)
- Sex of the individual - Birey Cinsiyeti (0 =eksik veya bilinmiyor, 1 = erkek, 2 = dişi)
- Phenotype - Fenotip (0 1 2 ve -9 = mevcut değil (eksik) veya önemli değil)
- SNP1 - ilk allel
- SNP1 - diğer allel
- SNP2 - ilk allel
- SNP2 - diğer allel
Resim 2: PED (*.ped) Dosya Formatı Görünümü
Sırasıyla ardışık iki kolon (Örn: yedinci ve sekizinci kolon) birlikte aynı SNP’i ifade eder.
1 1 değeri homozigot.
2 2 değeri homozigot,
1 2 veya 2 1 değerleri ise nümerik olarak hetorozigotluğu ifade eder. Nükleotidler yukarıda nümerik olarak gösterilmiştir.
Nükleotid allel kodları A G C T harfleri ile gösterilmektedir.
Karakter allel kodları A B harfleri ile gösterilmektedir.
Genotip A B kodlarında AB (Heterozigot), AA (Homozigot), BB (Homozigot?)
Nümerik allel kodları 1 2 veya 0 1 sayıları ile gösterilmektedir.
Genotip Kod 0 1 2 ile gösterilmektedir. 0 (Homozigot), 1 (Heterozigot), 2 (Homozigot)
MAP(*.map) Dosyası
PED dosya formatıyla beraber bulunur. MAP dosyası, PED dosyası içindeki markerlerin isimleri ve konumları hakkındaki bilgileri içerir. Sadece 4 tane kolon vardır, kolonlar sırasıyla:
- Chromosome – Kromozom (1-22, X Y veya 0 ile başlar, sıfır kromozom yok veya yerleştirilmemiş anlamına gelir)
- SNP ID - SNP Kimlik Numarası (rs# veya snp tanımlayıcısı)
- SNP position in morgans - Morgan cinsinden SNP konumu (genetik mesafe)
- Base-pair position of SNP - SNP'nin baz çifti konumu (bp)
Resim 3: MAP(*.map) Dosya Formatı Görünümü
BED(*.bed) Dosyası
Binary format şeklinde sadece bilgisayarın okuyabileceği bir formattadır. BIM ve FAM dosyaları ile birlikte bulunur. Text editörü ile açılsa dahi okunamaz. Dosya boyutu diğerlerine göre daha büyüktür.
FAM (*.fam) Dosyası
FAM dosyası, pedigree bilgileri içeren bir dosya formatıdır. Her satırdaki bilgi, farklı bir bireye aittir. Başlık satırı olmayan dosya içinde toplamda 6 kolon bulunur, sırasıyla:
- Family ID - Aile Kimlik Numarası (ABR,WAD,WYG….)
- Individual ID - Birey Kimlik Numarası (ET_ABR0001, ET_ABR0002…)( eşsiz, 0 olamaz)
- Paternal ID - Baba Kimlik Numarası (0 =baba yok)
- Maternal ID - Anne Kimlik Numarası (0 =anne yok)
- Sex of the individual - Birey Cinsiyeti (0 =eksik veya bilinmeyen, 1 = erkek, 2 = dişi)
- Phenotype - Fenotip (1' = kontrol, '2' = vaka, '-9'/'0'/nümerik olmayan = eksik veri eğer vaka/kontrol ise)
Resim 4: FAM(*.fam) Dosya Formatı Görünümü
BIM(*.bim) Dosyası
Kolonlar sırasıyla:
- Chromosome – Kromozom (1-22, X Y veya 0 ile başlar, sıfır kromozom yok veya yerleştirilmemiş anlamına gelir)
- SNP ID - SNP Kimlik Numarası (eşsiz)
- SNP position in morgans - Morgan cinsinden SNP konumu (genetik mesafe)
- Position of SNP in base pairs - Baz Çiflerinde SNP konumu
- Nucleotide SNP code - Nükleotid SNP kodu
- Nucleotide SNP code - Nükleotid SNP kodu
Resim 5: BIM(*.bim) Dosya Formatı Görünümü