-
Notifications
You must be signed in to change notification settings - Fork 2
Problema 1
- Normalizar os dados (contagem absoluta por gene) de expressão gênica para que sejam comparáveis (entre amostras e entre genes).
Tipos de normalização
- CPM: ( número de reads / número de framentos sequenciados ) * 1000000
- TPM (entre genes):
- RPKM (entre genes):
- FPKM (entre genes):
- TMM (entre amostras):
Requerimentos:
- Comprimento dos genes
- Tamanho da biblioteca (número de fragmentos sequenciados e mapeados)
- Número de amostras
- Dispersão
-
Verificar se o "n amostral" apresentado é suficiente para análise de expressão diferencial.
-
Identificar os genes diferencialmente expressos.
-
Visualização de dados de expressão.
Códigos deverão usar as seguintes bibliotecas de python 3.6 (Jupyter Notebook no Anaconda):
- matplotlib
- pandas
jupyter notebook
Ching, Travers, Sijia Huang, and Lana X. Garmire. "Power analysis and sample size estimation for RNA-Seq differential expression." Rna 20.11 (2014): 1684-1696.
Mortazavi, Ali, et al. "Mapping and quantifying mammalian transcriptomes by RNA-Seq." Nature methods 5.7 (2008): 621-628.
Blog do Dr. Harold Pimentel: "What the FPKM? A review of RNA-Seq expression units"
Blog do Dr. Harold Pimentel: "In RNA-Seq, 2 != 2: Between-sample normalization"