FASTA
En yaygın kullanılan popülasyon genetiği veri formatları arasında FASTA formatı ilk sırada gelir. FASTA formatı nükleotid dizileri (DNA, RNA) ve protein (aminoasit) dizileri için en yaygın kullanılan metin tabanlı dosya formatıdır.
>gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK
Bu format genellikle hızlı benzerlik araştırmaları için kullanılır, sadece dizi (sekans) içeren bu format bazen "Pearson" olarak da adlandırılır.
FASTA formatlarında dizi (sekans) bilgilerinden önce tek satırlık tanımlama satırı ve yorum satırları gelir. Tanımlama satırı çoğu kez büyüktür işareti (>) ile başlar. Büyüktür (>) işaretinden sonra isteğe bağlı olarak "AB000263" gibi bir kimlik kodu veya sekans adı gelir. Kimlik kodu ya da sekans adından sonra tanımlama satırına, isteğe bağlı olarak çeşitli sekans bilgileri eklenebilir. Birçok farklı dizi (sekans) veri tabanı, tanımlama satırlarından otomatik bilgi elde edilmesi için kendilerine ait standart başlıklar kullanırlar. Bu başlıklar içinde dikey çubuk (|) ile ayrılan ve belirli bir sıraya konulmuş çeşitli bilgiler bulunmaktadır
Tablo 1: FASTA Formatı Standart Veri Tabanı Başlık Formatları
Veri Tabanı | Başlık Formatı |
---|---|
GenBank | “gi”|gi- numarası |”gb”|erişim numarası|lokus |
EMBL Veri Kütüphanesi | “gi”|gi- numarası |”emb”| erişim numarası | lokus |
DDBJ, DNA Japon Veri Tabanı | “gi”|gi-numarası|”dbj”| erişim numarası | lokus |
Genel Veri Tabanı Tanımlayıcısı | “gnl”|database| tanımlayıcı |
Basit Kullanım | tanımlayıcı |
FASTA dosyası içindeki tek satırda sekans verisi 80 karakterden az ve her satırda aynı uzunlukta olmalıdır. İstenildiği takdirde yorum satırı kullanılabilir, yorum satırları noktalı virgül (;) işareti ile başlar. Yorum satırları dosya içinde satır sonu haricinde her yerde kullanılabilir ve kullanıldığı satırı tamamen yorum haline getirir
Resim 1: Genel FASTA Dosya Formatı Görünümü
Resim 2: Diğer FASTA Dosya Formatı Görünümleri
FASTA dosya uzantılarında belli bir standart yoktur ancak, “.fasta”, “.fas”, “.fa”, “.seq”, “.fsa”, “.fna”, “.ffn”, “.faa”, “.frn”, “.mpfa”, “.txt” dosya uzantılarına sahip olabilirler. Aşağıdaki tabloda dosya uzantıları ve bunların anlamları gösterilmektedir.
Tablo 2: FASTA Dosya Uzantıları ve Anlamları
Uzantı | Anlamı | Açıklama |
---|---|---|
fasta | Genel FASTA formatı | Diğer uzantıları “.fas”, “.fa”, “.seq”, “.fsa” olabilir. |
fna | FASTA Nükleik Asit | Nükleik asitleri belirtmek için kullanılır. |
ffn | Gen bölgelerinin FASTA nükleotidi | Bir genom için, kodlama bölgeleri içerir. |
faa | FASTA Amino Asit | Amino asitler içerir. Çoklu protein FASTA dosyası, daha özel “.mpfa” uzantısına sahip olabilir. |
frn | FASTA Kodlanmayan RNA | Bir genom için kodlamayan RNA bölgelerini içerir. |
FASTA dosya formatları içerisinde DNA, RNA, Protein ve SNP dosya tiplerinden herhangi birisi bulunabilir.
FASTA dosyası içerisinde kabul edilen karakterler büyük-küçük harf duyarlılığına sahip değillerdir. Baz çiftleri ve aminoasitler tek harfli kodlar kullanılarak temsil edilirler. Sekans verileri içinde nükleotidler, A, C, G, T karakterleri ile, boşluklar (gap) tire işareti (-) veya iki nokta üst üste (:) karakterleri ile, eksik veriler (missing data) soru işareti (?) veya (N) karakterleri ile temsil edilirler. Aminoasit sekanslarında U ve asteriks (*) karakterleri de kabul edilebilir. Dosya içinde “population:” ifadesinin geçtiği satırda, bu ifadeden sonraki boşluğa kadar olan bölüm, popülasyon adını içerir.
FASTA dosyası içindeki verilerden, her birey için 2 sekansa sahip olanlara diploit veri, tek sekansa sahip olanlara ise haploit veri denir. Tek dosyada sadece bir dizi tutabileceği gibi (Single Sequences) birden fazla (Multi Sequences) dizide tutulabilir. Bu çalışmada, FASTA dosya formatının çevrileceği dosya formatları MEGA, PHYLIP, ARLEQUIN ve NEXUS dosya formatlarıdır.
Resim 3: FASTA Dosya Formatı Görünümü (Single Sequences)
Resim 4: FASTA Dosya Formatı Görünümü (Multi Sequences)