Aims

Ziel

Big Picture

Fragestellung der Mediziner (Mundlos Gruppe): Wir haben einen Patienten mit einer bestimmten genetischen Veränderung, die zB eine Krankheit oder eine Behinderung auslöst und wir suchen die SNPs, Indels & SVs, die diese hervorbringen.

Ablauf:

Wir suchen diese mit günstigen short Reads (Illumina) -> Manuel Holtgrewe, Tools: ???
Filtern allgemein bekannte genetische Variationen heraus und übrig bleiben die eventuellen interessanten Variationen -> Manuel Holtgrewe, Tool: VarFish
Falls uns das Ergebnis nicht genügend Informationen liefert, produzieren wir long reads (PacBio) und schicken diese zur Analyse ans MPI (Fokus auf SVs) -> Jakob Hertzberg, David Heller

Bekannte Probleme: VCF Formate sind nicht einheitlich, je nach Problematik müssen unterschiedliche Folgetools verwendet werden.

Unser Ziel: Wir wollen ein Tool (iGenVar) erschaffen, das Medizinern (zb aus der Mundlos Gruppe) die Arbeit erleichtert, indem es die Detektion von SNPs, Indels und SVs vereinigt. Die Filterung kann danach mit VarFish erfolgen.

Jahres Ziel

Wir wollen einen Prototypen für das obengenante Tool erschaffen und dies in einem Paper vorstellen und veröffentlichen. ToDo: Was genau, soll dieser Prototyp können?

3 Monate Ziel

Unser iGenVar Tool soll einen kompletten Schnitt von Input zu Output bilden. Hierfür genügen die einfachsten Methoden:

Keine Inputdaten Unterscheidung
Methoden: CIGAR String analyse & SA tag
Cluster: Finde eine einfache Methode um die gefundenen novel adjacencies zu clustern
Call: only deletions
Output: schreibe ein VCF file (ohne exacte Formatierung) aber bereite damit das einführen eines VCF formatters aus SeqAn3 vor.

geplanter Workflow von iGenVar

short / long Reads -> adjacencies list -> cluster (-> sViper) -> call -> VCF

Input

short / long Reads (BAM)
BAI für Genotyping, Haplotyper, SViper

Methods for SV detection

CIGAR string: contains precise information on mismatches (SNPs), contained insertions and deletions
Read depth: particularly high read depth -> duplication, low -> deletion, imprecise
Read pairs: Illumina paired-end reads (insert size = distance between pairs), higher than expected -> deletion, lower -> insertion, imprecise
Split read: contains precise information on all types of SVs

Possible Clustering Methods

Hierarchical clustering (SVIM)
Self-balancing binary tree (Sniffles, see Supplementary Note 2 in https://www.nature.com/articles/s41592-018-0001-7)

Call

Deletions (Prototype)
Insertions
...

VCF

Wo sich die VCF Formate unterscheiden:

INFO Feld
Representation von Duplikationen
SV-Typen

Provide feedback

Saved searches

Use saved searches to filter your results more quickly