Jacques van Helden
2018-04-12
En M1, nous avons revu les notions de base suivantes:
Aborder des méthodes statistiques permettant de traiter des données à haut débit (biopuces, NGS).
Appliquer à ces données différentes méthodes d’analyse multidimensionnelle (sélection de variables, PCA, clusering, classification supervisée), qui sont utilisées dans un grand nombre de publications biologiques et de bioinformatique.
Apprendre à évaluer la qualité d’un résultat (en particulier, la précision d’un classifieur).
Approfondir la maîtrise du langage R pour le traitement de ce type de données.
En bioinformatique on est souvent confrontés à des données présentées sous la forme de tables où chaque ligne représente un objet (par exemple un patient) et chaque colonne une caractéristique (feature) de cet objet (par exemple niveau d’expression d’un gène).
Note: selon les cas on pourra utiliser les lignes pour les variables et les colonnes pour les objets.
Nous aborderons l’analyse multidimensionnelle sur base de données de biopuces transcriptomiques, qui se prêtent bien à ce type d’analyses. Nous étendrons ensuite l’analyse au traitement de données de RNA-seq.
La détection de gènes différentiellement exprimés à partir de données RNA-seq requiert des modèles statistiques particuliers du fait de la nature des données:
Les tests paramétriques ne s’appliquent absolument pas à ce type de données.
But: interprétattion de groupes de gènes fonctionnellement associés, par exemple des groupes de gènes différentiellement exprimés entre deux conditions, ou des clusters de gènes co-exprimés dans une série de conditions.