Skip to content

Problema 1

Renato Augusto Corrêa dos Santos edited this page Jul 21, 2017 · 34 revisions

Problema 1: processamento de resultados de RNA-seq

Objetivos

  1. Importar tabela com dados de expressão normalizados (RNA-seq, RPKM)

  2. Calcular estatísticas a partir dos dados de expressão em múltiplos experimentos

  3. Adicionar informação de anotação

  4. Visualização de dados de expressão

Desenvolvimento de código

Códigos deverão usar as seguintes bibliotecas de python 3.6 (Jupyter Notebook no Anaconda):

  1. matplotlib
  2. pandas
  3. numpy

A tabela com dados de expressão

O arquivo usado durante a prática está disponível como material suplementar do artigo:

Mortazavi et al, 2008

  • nmeth.1226-S3

O cabeçalho da tabela:

gid RNAkb gene firstRPKM expandedRPKM finalRPKM fractionMulti

Linhas seguintes:

100008564 17.422 RP23-273B19.1 0.05 0.05 0.27 0.84

As informações em colunas são separadas por tab (tabulação). O arquivo pode ser visualizado no Excel.

Lendo a tabela e transformando em um objeto de Python (dataFrame de Pandas)

Dados de anotação

Informações adicionais

Tipos de normalização

  • CPM: ( número de reads / número de framentos sequenciados ) * 1000000
  • TPM (entre genes):
  • RPKM (entre genes):
  • FPKM (entre genes):
  • TMM (entre amostras):

Requerimentos:

  • Comprimento dos genes
  • Tamanho da biblioteca (número de fragmentos sequenciados e mapeados)
  • Número de amostras
  • Dispersão

Referências

Ching, Travers, Sijia Huang, and Lana X. Garmire. "Power analysis and sample size estimation for RNA-Seq differential expression." Rna 20.11 (2014): 1684-1696.

Mortazavi, Ali, et al. "Mapping and quantifying mammalian transcriptomes by RNA-Seq." Nature methods 5.7 (2008): 621-628.

Python for Data Science

Páginas de interesse

Blog do Dr. Harold Pimentel: "What the FPKM? A review of RNA-Seq expression units"

Blog do Dr. Harold Pimentel: "In RNA-Seq, 2 != 2: Between-sample normalization"

Clone this wiki locally