Biyoinformatik dünyasına kaliteli, özgün ve Türkçe içerikler kazandırmayı hedefleyen bir platform..

friends friends friends

PLINK Dosya Formatları

PED, MAP, BED, FAM ve BIM dosya formatları, PLINK programına ait dosya formatlarıdır. PLINK programına ait bu dosya formatları dışında yaygın olarak HapMap, VCF ve Structure genotip dosya formatları da kullanılmaktadır.

Resim 1: Genotip Dosya Formatları ve PLINK Dosya Formatları

İşlenmemiş(ham) varyant genotip verileri, genellikle insanlar tarafından kolayca incelenebilen basit metin tabanlı dosya formatları olan Variant Call Format (VCF) dosyalarında saklanmaktadır. Ancak, PLINK gibi araçlar, VCF dosyalarını doğrudan kullanmazlar ve bunun yerine önce VCF dosyalarını PED formatına veya BED dosyasına dönüştürürler. Gerçek analizde metin tabanlı PED versiyonu yerine binary kodlanmış bir BED dosyası kullanmak daha yaygındır. Ayrıca, PLINK, BED dosyalarıyla birlikte en az iki tamamlayıcı dosya gerektirir: BIM ve FAM dosyaları

PED (*.ped) Dosyası

Boşlukla (space veya tab) ile ayrılmış düz metin dosyalarıdır. MAP dosyası ile beraber bulunur. PED dosyası içinde pedigree, genotip ve fenotip veriler bulunur. Her satır bir bireyi ifade etmektedir. Dosya boyutu büyüktür. İlk 6 kolon zorunludur ve FAM dosyası ile aynıdır fakat aşağıda nümerik kodlanmıştır. İlk 6 kolondan sonra çok sayıda kolon olabilir. Kolonlar sırasıyla:

  1. Family ID - Aile Kimlik Numarası (100,101,102….)
  2. Individual ID - Birey Kimlik Numarası (100002140, 100003600…)(eşsiz)
  3. Paternal ID - Baba Kimlik Numarası (0 =baba yok)
  4. Maternal ID - Anne Kimlik Numarası (0 = anne yok)
  5. Sex of the individual - Birey Cinsiyeti (0 =eksik veya bilinmiyor, 1 = erkek, 2 = dişi)
  6. Phenotype - Fenotip (0 1 2 ve -9 = mevcut değil (eksik) veya önemli değil)
  7. SNP1 - ilk allel
  8. SNP1 - diğer allel
  9. SNP2 - ilk allel
  10. SNP2 - diğer allel

Resim 2: PED (*.ped) Dosya Formatı Görünümü

PLINK PED Dosya Formatı

Sırasıyla ardışık iki kolon (Örn: yedinci ve sekizinci kolon) birlikte aynı SNP’i ifade eder.

1 1 değeri homozigot.

2 2 değeri homozigot,

1 2 veya 2 1 değerleri ise nümerik olarak hetorozigotluğu ifade eder. Nükleotidler yukarıda nümerik olarak gösterilmiştir.

Nükleotid allel kodları A G C T harfleri ile gösterilmektedir.

Karakter allel kodları A B harfleri ile gösterilmektedir.

Genotip A B kodlarında AB (Heterozigot), AA (Homozigot), BB (Homozigot?)

Nümerik allel kodları 1 2 veya 0 1 sayıları ile gösterilmektedir.

Genotip Kod 0 1 2 ile gösterilmektedir. 0 (Homozigot), 1 (Heterozigot), 2 (Homozigot)

MAP(*.map) Dosyası

PED dosya formatıyla beraber bulunur. MAP dosyası, PED dosyası içindeki markerlerin isimleri ve konumları hakkındaki bilgileri içerir. Sadece 4 tane kolon vardır, kolonlar sırasıyla:

  1. Chromosome – Kromozom (1-22, X Y veya 0 ile başlar, sıfır kromozom yok veya yerleştirilmemiş anlamına gelir)
  2. SNP ID - SNP Kimlik Numarası (rs# veya snp tanımlayıcısı)
  3. SNP position in morgans - Morgan cinsinden SNP konumu (genetik mesafe)
  4. Base-pair position of SNP - SNP'nin baz çifti konumu (bp)

Resim 3: MAP(*.map) Dosya Formatı Görünümü

PLINK MAP Dosya Formatı

BED(*.bed) Dosyası

Binary format şeklinde sadece bilgisayarın okuyabileceği bir formattadır. BIM ve FAM dosyaları ile birlikte bulunur. Text editörü ile açılsa dahi okunamaz. Dosya boyutu diğerlerine göre daha büyüktür.

FAM (*.fam) Dosyası

FAM dosyası, pedigree bilgileri içeren bir dosya formatıdır. Her satırdaki bilgi, farklı bir bireye aittir. Başlık satırı olmayan dosya içinde toplamda 6 kolon bulunur, sırasıyla:

  1. Family ID - Aile Kimlik Numarası (ABR,WAD,WYG….)
  2. Individual ID - Birey Kimlik Numarası (ET_ABR0001, ET_ABR0002…)( eşsiz, 0 olamaz)
  3. Paternal ID - Baba Kimlik Numarası (0 =baba yok)
  4. Maternal ID - Anne Kimlik Numarası (0 =anne yok)
  5. Sex of the individual - Birey Cinsiyeti (0 =eksik veya bilinmeyen, 1 = erkek, 2 = dişi)
  6. Phenotype - Fenotip (1' = kontrol, '2' = vaka, '-9'/'0'/nümerik olmayan = eksik veri eğer vaka/kontrol ise)

Resim 4: FAM(*.fam) Dosya Formatı Görünümü

PLINK FAM Dosya Formatı

BIM(*.bim) Dosyası

Kolonlar sırasıyla:

  1. Chromosome – Kromozom (1-22, X Y veya 0 ile başlar, sıfır kromozom yok veya yerleştirilmemiş anlamına gelir)
  2. SNP ID - SNP Kimlik Numarası (eşsiz)
  3. SNP position in morgans - Morgan cinsinden SNP konumu (genetik mesafe)
  4. Position of SNP in base pairs - Baz Çiflerinde SNP konumu
  5. Nucleotide SNP code - Nükleotid SNP kodu
  6. Nucleotide SNP code - Nükleotid SNP kodu

Resim 5: BIM(*.bim) Dosya Formatı Görünümü

PLINK BIM Dosya Formatı
PED Dosya formatı PLINK Dosya Formatları
0 Beğeni
Önceki Yazı

HapMap Dosya Formatı

27 Eyl. 2022 tarihinde yayınlandı.
Sonraki Yazı

Poliploidi

27 Eyl. 2022 tarihinde yayınlandı.
arrow