Problema 1

Jump to bottom

Renato Augusto Corrêa dos Santos edited this page Jul 19, 2017 · 34 revisions

Problema 1: processamento de resultados de RNA-seq

Objetivos

Importar tabela com dados de expressão normalizados (RNA-seq, RPKM)
Calcular estatísticas a partir dos dados de expressão em múltiplos experimentos
Visualização de dados de expressão.

Desenvolvimento de código

Códigos deverão usar as seguintes bibliotecas de python 3.6 (Jupyter Notebook no Anaconda):

matplotlib
pandas
numpy

A tabela com dados de expressão

O arquivo usado durante a prática está disponível como material suplementar do artigo:

Mortazavi et al, 2008

nmeth.1226-S3

O cabeçalho da tabela:

gid RNAkb gene firstRPKM expandedRPKM finalRPKM fractionMulti

Linhas seguintes:

100008564 17.422 RP23-273B19.1 0.05 0.05 0.27 0.84

As informações em colunas são separadas por tab (tabulação). O arquivo pode ser visualizado no Excel.

Lendo a tabela e transformando em um objeto de Python (dataFrame de Pandas)

Informações adicionais

Tipos de normalização

CPM: ( número de reads / número de framentos sequenciados ) * 1000000
TPM (entre genes):
RPKM (entre genes):
FPKM (entre genes):
TMM (entre amostras):

Requerimentos:

Comprimento dos genes
Tamanho da biblioteca (número de fragmentos sequenciados e mapeados)
Número de amostras
Dispersão

Referências

Ching, Travers, Sijia Huang, and Lana X. Garmire. "Power analysis and sample size estimation for RNA-Seq differential expression." Rna 20.11 (2014): 1684-1696.

Mortazavi, Ali, et al. "Mapping and quantifying mammalian transcriptomes by RNA-Seq." Nature methods 5.7 (2008): 621-628.

Python for Data Science

Páginas de interesse

Blog do Dr. Harold Pimentel: "What the FPKM? A review of RNA-Seq expression units"

Blog do Dr. Harold Pimentel: "In RNA-Seq, 2 != 2: Between-sample normalization"