VCF dosyası 3 bölümden oluşur, sırasıyla: meta-information(meta bilgileri), header(başlık), ve data(veri).
Meta-information bölümünde ilk satır zorunludur ve VCF formatının versiyonunu gösterir. Satırlar sırasıyla:
- ##fileformat - dosyanın verisyonu(zorunlu)
- ##fileDate - dosyanın oluşturulma tarihi
- ##source – kaynak
##INFO ile başlayan satırlar sırasıyla:
- ID – Değişkenin Adı (string);
- Number – Değer Sayısı (integer)
- Type - Değişken tipi (integer, float, character, string, ve flag)
- Description - Açıklama.
##FORMAT ile başlayan satırlar sırasıyla:
- ID – Değişkenin Adı (string);
- Number – Değer Sayısı (integer, eğer versiyon 4.0 ise)
- Type – Değişken tipi (integer, float, character, string, ve flag)
- Description - Açıklama.
Meta-bilgi satırlarından sonra başlık satırı gelir. Başlık satırı zorunlu olarak 8 sabit sütuna sahiptir ve sekme sınırlıdır. Genotipik verileri varsa, aynı zamanda FORMAT sütununu ve ardından numune kimliklerini de içerir. Sütunlar ve ilgili veri bilgileri şunlardır:
- #CHROM- Kromozom (alfanümerik string)
- POS - Kromozom üzerindeki konumu (integer)
- ID - Hattın kimlik tanımlayıcısı (alfanümerik string)
- REF - Referans baz(lar) (A,C,G,T,N)
- ALT - Alternatif referans olmayan baz(lar) (A,C,G,T,N)
- QUAL - Kalite Puanı
- FILTER PASS - Tüm filtrelerden geçti veya geçmediyse sebebi
- INFO - Noktalı virgülle ayrılmış daha önce açıklanan tüm INFO'lar
- FORMAT - İki nokta üst üste ile ayrılmış tüm FORMAT ID’ler
- IDs - Tab ile ayrılmış örnek tanımlamalı liste.
Başlık satırından sonra gelen veri satırında bilgiler Tab ile ayrılır ve eksik(missing) veriler "."(nokta) ile gösterilir.
Resim 1: VCF(*.vcf) Dosya Formatı Görünümü