Biyoinformatik dünyasına kaliteli, özgün ve Türkçe içerikler kazandırmayı hedefleyen bir platform..

friends friends friends

GDS Dosya Formatı

GDS, Genomic Data Structure sözcüklerinin bir kısaltması olup Türkçe'ye Genomik Veri Yapısı olarak çevrilebilir. Bir başka veri biçimi türü olan NetCDF'ye çok benzeyen GDS, 2007'de başlayan CoreArray Projesi (http://corearray.sourceforge.net) kapsamında geliştirilmiştir. CoreArray platformlar arası taşınabilir, ölçeklenebilir, biyoinformatik veri görselleştirme ve depolama teknolojileri geliştirmeyi hedefleyen bir oluşumdur. GDS veri dosyaları çok sayıda ölçeklenebilir dizi odaklı veri setini üstverileriyle hiyerarşik yapıda depolayabilen ve platformlar arasında taşınabilirliği kolaylaştıran bir dosya biçimidir. Büyük ölçekli veri setleri, özellikle RAM kapasitesinden çok daha büyük olan verilerle çalışmayı sağlar.

GDS formatı Örnek

File: D:\gwasbook\SnpRelate\sequence.gds (2.6K)
+    [  ] *
|--+ sample.id   { Str8 3 LZMA_ra(375.0%), 97B }
|--+ snp.id   { Int32 2 LZMA_ra(975.0%), 85B }
|--+ snp.rs.id   { Str8 2 LZMA_ra(745.5%), 89B }
|--+ snp.position   { Int32 2 LZMA_ra(975.0%), 85B }
|--+ snp.chromosome   { Str8 2 LZMA_ra(1300.0%), 85B }
|--+ snp.allele   { Str8 2 LZMA_ra(975.0%), 85B }
|--+ genotype   { Bit2 3x2, 2B } *
\--+ snp.annot   [  ]
   |--+ qual   { Float32 2 LZMA_ra(975.0%), 85B }
   \--+ filter   { Str8 2 LZMA_ra(911.1%), 89B }

Örnek'te görüldüğü gibi GDS dosyalarında nesneler hiyerarşik ağaç yapısında olup snp.id, snp.rs.id, snp.position, snp.chromosome, sample.id ve genotype düğümlerinin bulunması zorunludur. İsteğe bağlı olarak A ve B alellerini "A/B" biçiminde bir karakter vektöründe içeren snp.allele düğümü de yer alabilir. İnsan genomu için varsayılan kromozom kodları otozomlar için 1-22, X için 23, XY için 24, Y için 25 ve MT için 26'dır. Diğer türler için kullanılan kodlar yazılımla, örneğin gdsfmt veya GWASTools paketi, değiştirilebilir. Bu paketlerde GDS formatında dosya oluşturma ve işlemeyle ilgili gelişmiş fonksionlar mevcuttur.

BED'den GDS'ye Dönüştürme

# Örnek: SNPRelate paketinin kurulması ve yüklenmesi
> suppressPackageStartupMessages(installed <- require(SNPRelate))
> if (!installed) {
+   if (!requireNamespace("BiocManager", quietly=TRUE)){
+     install.packages("BiocManager", repos="https://cloud.r-project.org")
+     BiocManager::install("SNPRelate")
+   }
+   suppressPackageStartupMessages(require(SNPRelate))  
+ }
> setwd("D:/gwasbook/SnpRelate")
> bedfile <- "plinkhapmap.bed.gz"
> famfile <- "plinkhapmap.fam.gz"
> bimfile <- "plinkhapmap.bim.gz"
> gdsfile <- "plinkhapmap.gds"

> snpgdsBED2GDS(bed.fn=bedfile, fam.fn=famfile, bim.fn=bimfile,
+   out.gdsfn=gdsfile, family = FALSE, 
+   snpfirstdim = NA, compress.annotation = "LZMA_RA", 
+   compress.geno = "", option = NULL, 
+   cvt.chr = c("int", "char"), cvt.snpid = c("auto", "int"), 
+   verbose = TRUE)

Kaynaklar

  1. Prof. Dr. Muhammet Şakiroğlu, Prof. Dr. Zeynel CEBECİ | GWAS
  2. https://si.biostat.washington.edu/sites/default/files/modules/GDS_intro.pdf

GDS Dosya Formatı
0 Beğeni
Önceki Yazı

Pedigri

09 Ara. 2022 tarihinde yayınlandı.
Sonraki Yazı

Bioconductor

09 Ara. 2022 tarihinde yayınlandı.
arrow