Skip to content

Problema 1

Renato Augusto Corrêa dos Santos edited this page Jul 19, 2017 · 34 revisions

Problema 1: processamento de resultados de RNA-seq

Objetivos

  1. Normalizar os dados (contagem absoluta por gene) de expressão gênica para que sejam comparáveis (entre amostras e entre genes).

Tipos de normalização

  • CPM: ( número de reads / número de framentos sequenciados ) * 1000000
  • TPM (entre genes):
  • RPKM (entre genes):
  • FPKM (entre genes):
  • TMM (entre amostras):

Requerimentos:

  • Comprimento dos genes
  • Tamanho da biblioteca (número de fragmentos sequenciados e mapeados)
  • Número de amostras
  • Dispersão
  1. Verificar se o "n amostral" apresentado é suficiente para análise de expressão diferencial.

  2. Identificar os genes diferencialmente expressos.

  3. Visualização de dados de expressão.

Desenvolvimento de código

Códigos deverão usar as seguintes bibliotecas de python 3.6 (Jupyter Notebook no Anaconda):

  1. matplotlib
  2. pandas

Usando o Jupyter notebook

jupyter notebook

Referências

Ching, Travers, Sijia Huang, and Lana X. Garmire. "Power analysis and sample size estimation for RNA-Seq differential expression." Rna 20.11 (2014): 1684-1696.

Mortazavi, Ali, et al. "Mapping and quantifying mammalian transcriptomes by RNA-Seq." Nature methods 5.7 (2008): 621-628.

Python for Data Science

Páginas de interesse

Blog do Dr. Harold Pimentel: "What the FPKM? A review of RNA-Seq expression units"

Blog do Dr. Harold Pimentel: "In RNA-Seq, 2 != 2: Between-sample normalization"

Clone this wiki locally