Biyoinformatik dünyasına kaliteli, özgün ve Türkçe içerikler kazandırmayı hedefleyen bir platform..

friends friends friends

Fasta Dosya Formatı

FASTA

En yaygın kullanılan popülasyon genetiği veri formatları arasında FASTA formatı ilk sırada gelir. FASTA formatı nükleotid dizileri (DNA, RNA) ve protein (aminoasit) dizileri için en yaygın kullanılan metin tabanlı dosya formatıdır.

>gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK

Bu format genellikle hızlı benzerlik araştırmaları için kullanılır, sadece dizi (sekans) içeren bu format bazen "Pearson" olarak da adlandırılır.

FASTA formatlarında dizi (sekans) bilgilerinden önce tek satırlık tanımlama satırı ve yorum satırları gelir. Tanımlama satırı çoğu kez büyüktür işareti (>) ile başlar. Büyüktür (>) işaretinden sonra isteğe bağlı olarak "AB000263" gibi bir kimlik kodu veya sekans adı gelir. Kimlik kodu ya da sekans adından sonra tanımlama satırına, isteğe bağlı olarak çeşitli sekans bilgileri eklenebilir. Birçok farklı dizi (sekans) veri tabanı, tanımlama satırlarından otomatik bilgi elde edilmesi için kendilerine ait standart başlıklar kullanırlar. Bu başlıklar içinde dikey çubuk (|) ile ayrılan ve belirli bir sıraya konulmuş çeşitli bilgiler bulunmaktadır

Tablo 1: FASTA Formatı Standart Veri Tabanı Başlık Formatları

Veri Tabanı Başlık Formatı
GenBank “gi”|gi- numarası |”gb”|erişim numarası|lokus
EMBL Veri Kütüphanesi “gi”|gi- numarası |”emb”| erişim numarası | lokus
DDBJ, DNA Japon Veri Tabanı “gi”|gi-numarası|”dbj”| erişim numarası | lokus
Genel Veri Tabanı Tanımlayıcısı “gnl”|database| tanımlayıcı
Basit Kullanım tanımlayıcı

FASTA dosyası içindeki tek satırda sekans verisi 80 karakterden az ve her satırda aynı uzunlukta olmalıdır. İstenildiği takdirde yorum satırı kullanılabilir, yorum satırları noktalı virgül (;) işareti ile başlar. Yorum satırları dosya içinde satır sonu haricinde her yerde kullanılabilir ve kullanıldığı satırı tamamen yorum haline getirir

Resim 1: Genel FASTA Dosya Formatı Görünümü

Resim 2: Diğer FASTA Dosya Formatı Görünümleri

FASTA dosya uzantılarında belli bir standart yoktur ancak, “.fasta”, “.fas”, “.fa”, “.seq”, “.fsa”, “.fna”, “.ffn”, “.faa”, “.frn”, “.mpfa”, “.txt” dosya uzantılarına sahip olabilirler. Aşağıdaki tabloda dosya uzantıları ve bunların anlamları gösterilmektedir.

Tablo 2: FASTA Dosya Uzantıları ve Anlamları

Uzantı Anlamı Açıklama
fasta Genel FASTA formatı Diğer uzantıları “.fas”, “.fa”, “.seq”, “.fsa” olabilir.
fna FASTA Nükleik Asit Nükleik asitleri belirtmek için kullanılır.
ffn Gen bölgelerinin FASTA nükleotidi Bir genom için, kodlama bölgeleri içerir.
faa FASTA Amino Asit Amino asitler içerir. Çoklu protein FASTA dosyası, daha özel “.mpfa” uzantısına sahip olabilir.
frn FASTA Kodlanmayan RNA Bir genom için kodlamayan RNA bölgelerini içerir.

FASTA dosya formatları içerisinde DNA, RNA, Protein ve SNP dosya tiplerinden herhangi birisi bulunabilir.

FASTA dosyası içerisinde kabul edilen karakterler büyük-küçük harf duyarlılığına sahip değillerdir. Baz çiftleri ve aminoasitler tek harfli kodlar kullanılarak temsil edilirler. Sekans verileri içinde nükleotidler, A, C, G, T karakterleri ile, boşluklar (gap) tire işareti (-) veya iki nokta üst üste (:) karakterleri ile, eksik veriler (missing data) soru işareti (?) veya (N) karakterleri ile temsil edilirler. Aminoasit sekanslarında U ve asteriks (*) karakterleri de kabul edilebilir. Dosya içinde “population:” ifadesinin geçtiği satırda, bu ifadeden sonraki boşluğa kadar olan bölüm, popülasyon adını içerir.

FASTA dosyası içindeki verilerden, her birey için 2 sekansa sahip olanlara diploit veri, tek sekansa sahip olanlara ise haploit veri denir. Tek dosyada sadece bir dizi tutabileceği gibi (Single Sequences) birden fazla (Multi Sequences) dizide tutulabilir. Bu çalışmada, FASTA dosya formatının çevrileceği dosya formatları MEGA, PHYLIP, ARLEQUIN ve NEXUS dosya formatlarıdır.

Resim 3: FASTA Dosya Formatı Görünümü (Single Sequences)

Resim 4: FASTA Dosya Formatı Görünümü (Multi Sequences)

Fasta Popülasyon genetiği Genetik Veri Formatları FASTA formatı FASTA format description
0 Beğeni
Önceki Yazı

28 Mart 2022 tarihinde yayınlandı.
Sonraki Yazı

Sözlükçe

28 Mart 2022 tarihinde yayınlandı.
arrow