Nature UE
Crédits ECTS 3
Volume horaire total 31
Volume horaire CM 9
Volume horaire TD 4
Volume horaire TP 18

Pré-requis

Bases de Unix/Linux, connexion, navigation rapide dans le système de fichiers Avoir des connaissances dans un langage de programmation, ex. Python, Bash.

Objectifs

? Initiation au travail d’équipe ? Comprendre le principe et savoir utiliser des outils bio-informatiques dédiés à l’analyse de séquences ? Apprendre à construire une chaine de traitement efficace ? Utiliser une sélection de langages de programmation utilisés en bioinformatique (R, Bash) ? Développer un sens critique par exemple en appliquant des analyses statistiques ? Développer une méthode d’analyse et une argumentation scientifique

老虎机游戏

? Ce module vise à apprendre aux étudiants comment manipuler et traiter de très gros volumes de données, tels que ceux qui dépassent les capacités actuelles des systèmes de calcul pour biologistes (e.g. Galaxy), tout en maximisant les moyens de calcul à disposition pour produire rapidement des résultats.
? A l'issue de ce module, les étudiants auront la capacité d'évaluer ce qu'est un jeu de données NGS, d'évaluer les moyens de calculs dont ils auront besoin pour atteindre les objectifs scientifiques dans les délais demandés. Les étudiant travailleront seuls sur leur problème, mais en équipe opérationnelle. La communication et l'entre-aide entre étudiants est encouragée au cours des TP.


Cours magistraux (8h)
LA DONN?E NGS
I sources, débits, volumes
II structures et informations
III transport, stockage, sécurisation
LE LANGAGE DE SCRIPT
I origines
II interactions avec le système
III en choisir un... ou plusieurs
LES FLUX DE DONN?ES EN ACTIONS
I production
II transformation
III analyse et calculs
IV archivage des résultats
V de la plomberie virtuelle
LA GESTION AUTOMATIS?E DES FLUX
I les temps relatifs du traitement de l'information
II processus et cpu
III entrées et sorties
IV maximiser l'usage des moyens de calcul
V architecturer le traitement
VI La "scalabilité", du prototype à la production
Travaux Dirigés (4h)
PRODUIRE DES R?SULTATS EXPLOITABLES
I un "cahier de manip" en bio-informatique
II stocker les résultats et/ou les procédures ?
III reprendre un calcul partiel
IV penser calcul reproductible
Travaux pratiques (18h)
RNASEQ ET EXPRESSION DIFFERENTIELLE DE GENES
I Nettoyer à haut débit les données brutes, adapteurs/primers, nucléotides anonymes, poly-A, complexité, longueur, appairage, contaminations.
II ?valuer la qualité de l'information retenue, fastqc.
III Positionner les séquences sur une référence, mapping haut débit.
IV Design expérimental et puissance statistique, facteurs, profondeur, répétitions et FDR.
V Détecter les gènes différentiels et inférer une décision.
VI Enrichir l'interprétation par regroupement fonctionnel des gènes exprimés, GSEA.

Appartient à

Informations complémentaires

? Initiation au travail d’équipe ? Comprendre le principe et savoir utiliser des outils bio-informatiques dédiés à l’analyse de séquences ? Apprendre à construire une chaine de traitement efficace ? Utiliser une sélection de langages de programmation utilisés en bioinformatique (R, Bash) ? Développer un sens critique par exemple en appliquant des analyses statistiques ? Développer une méthode d’analyse et une argumentation scientifique