-
Notifications
You must be signed in to change notification settings - Fork 2
Problema 1
-
Importar tabela com dados de expressão normalizados (RNA-seq, RPKM)
-
Calcular estatísticas a partir dos dados de expressão em múltiplos experimentos
-
Visualização de dados de expressão.
Códigos deverão usar as seguintes bibliotecas de python 3.6 (Jupyter Notebook no Anaconda):
- matplotlib
- pandas
- numpy
O arquivo usado durante a prática está disponível como material suplementar do artigo:
- nmeth.1226-S3
O cabeçalho da tabela:
gid RNAkb gene firstRPKM expandedRPKM finalRPKM fractionMulti
Linhas seguintes:
100008564 17.422 RP23-273B19.1 0.05 0.05 0.27 0.84
As informações em colunas são separadas por tab
(tabulação). O arquivo pode ser visualizado no Excel.
Tipos de normalização
- CPM: ( número de reads / número de framentos sequenciados ) * 1000000
- TPM (entre genes):
- RPKM (entre genes):
- FPKM (entre genes):
- TMM (entre amostras):
Requerimentos:
- Comprimento dos genes
- Tamanho da biblioteca (número de fragmentos sequenciados e mapeados)
- Número de amostras
- Dispersão
Ching, Travers, Sijia Huang, and Lana X. Garmire. "Power analysis and sample size estimation for RNA-Seq differential expression." Rna 20.11 (2014): 1684-1696.
Mortazavi, Ali, et al. "Mapping and quantifying mammalian transcriptomes by RNA-Seq." Nature methods 5.7 (2008): 621-628.
Blog do Dr. Harold Pimentel: "What the FPKM? A review of RNA-Seq expression units"
Blog do Dr. Harold Pimentel: "In RNA-Seq, 2 != 2: Between-sample normalization"