-
Notifications
You must be signed in to change notification settings - Fork 8
Aims
Fragestellung der Mediziner (Mundlos Gruppe): Wir haben einen Patienten mit einer bestimmten genetischen Veränderung, die zB eine Krankheit oder eine Behinderung auslöst und wir suchen die SNPs, Indels & SVs, die diese hervorbringen.
Ablauf:
- Wir suchen diese mit günstigen short Reads (Illumina) -> Manuel Holtgrewe, Tools: ???
- Filtern allgemein bekannte genetische Variationen heraus und übrig bleiben die eventuellen interessanten Variationen -> Manuel Holtgrewe, Tool: VarFish
- Falls uns das Ergebnis nicht genügend Informationen liefert, produzieren wir long reads (PacBio) und schicken diese zur Analyse ans MPI (Fokus auf SVs) -> Jakob Hertzberg, David Heller
Bekannte Probleme: VCF Formate sind nicht einheitlich, je nach Problematik müssen unterschiedliche Folgetools verwendet werden.
Unser Ziel: Wir wollen ein Tool (iGenVar) erschaffen, das Medizinern (zb aus der Mundlos Gruppe) die Arbeit erleichtert, indem es die Detektion von SNPs, Indels und SVs vereinigt. Die Filterung kann danach mit VarFish erfolgen.
Wir wollen einen Prototypen für das obengenante Tool erschaffen und dies in einem Paper vorstellen und veröffentlichen. ToDo: Was genau, soll dieser Prototyp können?
Unser iGenVar Tool soll einen kompletten Schnitt von Input zu Output bilden. Hierfür genügen die einfachsten Methoden:
- Keine Inputdaten Unterscheidung
- Methoden: CIGAR String analyse & SA tag
- Cluster: Finde eine einfache Methode um die gefundenen novel adjacencies zu clustern
- Call: only deletions
- Output: schreibe ein VCF file (ohne exacte Formatierung) aber bereite damit das einführen eines VCF formatters aus SeqAn3 vor.
short / long Reads -> adjacencies list -> cluster (-> sViper) -> call -> VCF
- short / long Reads (BAM)
- BAI für Genotyping, Haplotyper, SViper
- CIGAR string: contains precise information on mismatches (SNPs), contained insertions and deletions
- Read depth: particularly high read depth -> duplication, low -> deletion, imprecise
- Read pairs: Illumina paired-end reads (insert size = distance between pairs), higher than expected -> deletion, lower -> insertion, imprecise
- Split read: contains precise information on all types of SVs
- Hierarchical clustering (SVIM)
- Self-balancing binary tree (Sniffles, see Supplementary Note 2 in https://www.nature.com/articles/s41592-018-0001-7)
- Deletions (Prototype)
- Insertions
- ...
Wo sich die VCF Formate unterscheiden:
- INFO Feld
- Representation von Duplikationen
- SV-Typen