Problema 1

Jump to bottom

Renato Augusto Corrêa dos Santos edited this page Jul 19, 2017 · 34 revisions

Problema 1: processamento de resultados de RNA-seq

Objetivos

Normalizar os dados (contagem absoluta por gene) de expressão gênica para que sejam comparáveis (entre amostras e entre genes).

Tipos de normalização

CPM: ( número de reads / número de framentos sequenciados ) * 1000000
TPM (entre genes):
RPKM (entre genes):
FPKM (entre genes):
TMM (entre amostras):

Requerimentos:

Comprimento dos genes
Tamanho da biblioteca (número de fragmentos sequenciados e mapeados)
Número de amostras
Dispersão

Verificar se o "n amostral" apresentado é suficiente para análise de expressão diferencial.
Identificar os genes diferencialmente expressos.
Visualização de dados de expressão.

Desenvolvimento de código

Códigos deverão usar as seguintes bibliotecas de python 3.6 (Jupyter Notebook no Anaconda):

matplotlib
pandas

Usando o Jupyter notebook

jupyter notebook

Referências

Ching, Travers, Sijia Huang, and Lana X. Garmire. "Power analysis and sample size estimation for RNA-Seq differential expression." Rna 20.11 (2014): 1684-1696.

Mortazavi, Ali, et al. "Mapping and quantifying mammalian transcriptomes by RNA-Seq." Nature methods 5.7 (2008): 621-628.

Python for Data Science

Páginas de interesse

Blog do Dr. Harold Pimentel: "What the FPKM? A review of RNA-Seq expression units"

Blog do Dr. Harold Pimentel: "In RNA-Seq, 2 != 2: Between-sample normalization"