Skip to content
Lydia Buntrock edited this page Nov 3, 2020 · 1 revision

Ziel

Big Picture

Fragestellung der Mediziner (Mundlos Gruppe): Wir haben einen Patienten mit einer bestimmten genetischen Veränderung, die zB eine Krankheit oder eine Behinderung auslöst und wir suchen die SNPs, Indels & SVs, die diese hervorbringen.

Ablauf:

  1. Wir suchen diese mit günstigen short Reads (Illumina) -> Manuel Holtgrewe, Tools: ???
  2. Filtern allgemein bekannte genetische Variationen heraus und übrig bleiben die eventuellen interessanten Variationen -> Manuel Holtgrewe, Tool: VarFish
  3. Falls uns das Ergebnis nicht genügend Informationen liefert, produzieren wir long reads (PacBio) und schicken diese zur Analyse ans MPI (Fokus auf SVs) -> Jakob Hertzberg, David Heller

Bekannte Probleme: VCF Formate sind nicht einheitlich, je nach Problematik müssen unterschiedliche Folgetools verwendet werden.

Unser Ziel: Wir wollen ein Tool (iGenVar) erschaffen, das Medizinern (zb aus der Mundlos Gruppe) die Arbeit erleichtert, indem es die Detektion von SNPs, Indels und SVs vereinigt. Die Filterung kann danach mit VarFish erfolgen.

Jahres Ziel

Wir wollen einen Prototypen für das obengenante Tool erschaffen und dies in einem Paper vorstellen und veröffentlichen. ToDo: Was genau, soll dieser Prototyp können?

3 Monate Ziel

Unser iGenVar Tool soll einen kompletten Schnitt von Input zu Output bilden. Hierfür genügen die einfachsten Methoden:

  • Keine Inputdaten Unterscheidung
  • Methoden: CIGAR String analyse & SA tag
  • Cluster: Finde eine einfache Methode um die gefundenen novel adjacencies zu clustern
  • Call: only deletions
  • Output: schreibe ein VCF file (ohne exacte Formatierung) aber bereite damit das einführen eines VCF formatters aus SeqAn3 vor.

geplanter Workflow von iGenVar

short / long Reads -> adjacencies list -> cluster (-> sViper) -> call -> VCF

Input

  • short / long Reads (BAM)
  • BAI für Genotyping, Haplotyper, SViper

Methods for SV detection

  • CIGAR string: contains precise information on mismatches (SNPs), contained insertions and deletions
  • Read depth: particularly high read depth -> duplication, low -> deletion, imprecise
  • Read pairs: Illumina paired-end reads (insert size = distance between pairs), higher than expected -> deletion, lower -> insertion, imprecise
  • Split read: contains precise information on all types of SVs

Possible Clustering Methods

Call

  • Deletions (Prototype)
  • Insertions
  • ...

VCF

Wo sich die VCF Formate unterscheiden:

  • INFO Feld
  • Representation von Duplikationen
  • SV-Typen