Skip to content

Problema 1

Renato Augusto Corrêa dos Santos edited this page Jul 19, 2017 · 34 revisions

Problema 1: processamento de resultados de RNA-seq

Objetivos

  1. Importar tabela com dados de expressão normalizados (RNA-seq, RPKM)

  2. Calcular estatísticas a partir dos dados de expressão em múltiplos experimentos

  3. Visualização de dados de expressão.

Desenvolvimento de código

Códigos deverão usar as seguintes bibliotecas de python 3.6 (Jupyter Notebook no Anaconda):

  1. matplotlib
  2. pandas
  3. numpy

A tabela com dados de expressão

O arquivo usado durante a prática está disponível como material suplementar do artigo:

Mortazavi et al, 2008

  • nmeth.1226-S3

O cabeçalho da tabela:

gid RNAkb gene firstRPKM expandedRPKM finalRPKM fractionMulti

Linhas seguintes:

100008564 17.422 RP23-273B19.1 0.05 0.05 0.27 0.84

As informações em colunas são separadas por tab (tabulação). O arquivo pode ser visualizado no Excel.

Lendo a tabela e transformando em um objeto de Python (dataFrame de Pandas)

Informações adicionais

Tipos de normalização

  • CPM: ( número de reads / número de framentos sequenciados ) * 1000000
  • TPM (entre genes):
  • RPKM (entre genes):
  • FPKM (entre genes):
  • TMM (entre amostras):

Requerimentos:

  • Comprimento dos genes
  • Tamanho da biblioteca (número de fragmentos sequenciados e mapeados)
  • Número de amostras
  • Dispersão

Referências

Ching, Travers, Sijia Huang, and Lana X. Garmire. "Power analysis and sample size estimation for RNA-Seq differential expression." Rna 20.11 (2014): 1684-1696.

Mortazavi, Ali, et al. "Mapping and quantifying mammalian transcriptomes by RNA-Seq." Nature methods 5.7 (2008): 621-628.

Python for Data Science

Páginas de interesse

Blog do Dr. Harold Pimentel: "What the FPKM? A review of RNA-Seq expression units"

Blog do Dr. Harold Pimentel: "In RNA-Seq, 2 != 2: Between-sample normalization"

Clone this wiki locally