Biyoinformatik dünyasına kaliteli, özgün ve Türkçe içerikler kazandırmayı hedefleyen bir platform..

friends friends friends

PHYLIP Dosya Formatı

PHYLIP dosya formatı içindeki nükleotid sekans verileri farklı, genetik farklılık matris (distance matrix) verileri farklı yapılardadır. Nükleotid veri tipleri için, PHYLIP dosyasının ilk satırında dizi (sekans) sayısı ve bir boşluktan (space) sonra her birey için kullanılan karakter sayısı belirtilir. İlk satırda karakter sayısından sonra bir boşluk (space) bırakılarak interleaved (aralıklı) özelliğini belirtmek için “i” karakteri, sequential (sıralı) özelliğini belirtmek için “s” karakterleri kullanılabilir yani isteğe bağlıdır. İlk satırda boşluk (space) yerine tab (boşluk) kullanılamaz. Sonraki satır sekans adı ile başlar ve sekans verileri genellikle onlu bloklar halinde yazılır. PHYLIP dosya formatında birey isimleri içinde alt çizgi (_), boşluk (space), noktalama işaretleri ve rakam kullanılabilir.

Resim 1: PHYLIP DNA Dosya Formatı Görünümü

PHYLIP dosya formatları, Interleaved (aralıklı) ve Sequential (sıralı) olmak üzere 2 çeşittir. Interleaved formatta genotip veriler, dosya içinde, 1 boş satır ile 2 parçaya ayrılır. İlk parçada birey sayısı kadar satır vardır. Her satır, maksimum 10 karakter kullanılacak şekilde birey ismi ile başlar ve 11. karakterden sonra genotip verilerin bir kısmı yazılır. Yazılan genotip veriler genellikle her 10 karakterde bir boşluk (space) kullanılarak 10’lu gruplar halinde yazılır. 2. parçada ise birey isimleri kullanılmadan yine her 10 karakterden sonra bir boşluk (space) kullanılarak genotip veriler yazılır. 2. parçada ki genotip verilerin karakter sayısı ile ilk parçadaki karakter sayıları toplandığında ilk satırda belirtilen toplam karakter sayısı ile eşit olmalıdır.

Resim 2: PHYLIP Interleaved Dizi Formatı Görünümü

Sequential formatta ise, genotip veriler kullanılırken, yine maksimum 10 karakter olacak şekilde birey isimleri kullanılır, 11. karakterden sonra her bireyin tüm genom bilgisi yazılır ve diğer bireyin bilgilerini aynı şekilde yazmak için bir sonraki satırdan devam edilir.

Resim 3: PHYLIP Sequential Dizi Formatı Görünümü

PHYLIP dosyaları içinde Distance dosya tipleri için ayrı bir yazım şekli vardır. Bu dosyasının ilk satırında sadece birey sayısı yazılır. Daha sonra genetik farklılık matris (distance matrix) yazılır. Matris içinde birey isimleri maksimum 10 karakter uzunluğunda olabilir. Bunlara boşluklar ve noktalama işaretleri dahildir

Resim 4: PHYLIP Kare Genetik Farklılık Matrisi (Distance Matrix) Formatı Görünümü

Genetik farklılık matris (distance matrix) üçgen formatında ise gereksinimlere göre veriler, yeni bir satırda devam edebilir.

Resim 5: PHYLIP Üçgen Genetik Farklılık Matrisi (Distance Matrix) Formatı Görünümü

PHYLIP dosyalarının uzantıları “.txt” , “.phy” veya “.py” uzantılıdır. Bu çalışmada PHYLIP dosya formatları içerisinde DNA, RNA, Protein, SNP veya Distance dosya tiplerinden herhangi birisi bulunabilir [31]. PHYLIP dosya formatının çevrileceği dosya formatları MEGA, NEXUS, ARLQUIN ve FASTA dosya formatlarıdır.

Resim 6: PHYLIP Protein Dosya Formatı Görünümü

Phylip dosya formatı veri formatları
0 Beğeni
Önceki Yazı

En Popüler Genler

20 Ağu. 2022 tarihinde yayınlandı.
Sonraki Yazı

NEXUS Dosya Formatı

20 Ağu. 2022 tarihinde yayınlandı.
arrow