Spécialité Ingénierie Mathématique et Biostatistique

Mots-Clefs : Data science, Apprentissage, Machine Learning, Grande dimension, Big Data, Biostatistique.

 

Le Master d’Ingénierie Mathématique et Biostatistique a pour objectif de former des ingénieurs d’étude en statistiques, des chargés d’études statistiques orientées vers l’épidémiologie, les essais cliniques, l’économie de la santé, les sciences sociales. Les applications vues en cours sont en cohérence avec les thématiques du laboratoire MAP5. Cependant les outils mathématiques et informatiques permettent des débouchés plus larges.

Le M1 IMB est centré sur les outils de base en statistique, informatique et mathématiques appliquées avec des enseignements d’ouverture destinés à préparer la spécialisation de deuxième année.

Le M2 IMB complète l’apprentissage des modélisations et des outils informatiques et statistiques nécessaires au traitement et à la gestion des données.

Intervenants. Les intervenants sont des enseignants-chercheurs de l’UFR de Mathématique et Informatique et de l’UFR Biomédicale, des membres du Laboratoire MAP5 (UMR Cnrs 8145). Des enseignements d’études de cas sont donnés par des intervenant du monde professionnel.

Conditions d’accès

Le Master IMB est accessible aux étudiants titulaires d’une Licence de Mathématiques (ou diplôme français ou étranger de niveau équivalent). Pour postuler directement en M2, il est nécessaire d’être titulaire d’un M1 de Mathématiques,  un bon niveau en statistique est également requis.

Débouchés

  • Ingénieurs d’études en statistiques
  • Chargés d’études statistiques
  • Biostatisticiens
  • Statisticiens épidémiologistes
  • Recherche biomédicale
  • Banque.

De nombreux débouchés sont offerts dans des unités Inserm, les services statistiques en milieu hospitalier, les observatoires régionaux de la santé (ORS), les unités de recherche en épidémiologie nutritionnelle (UREN) et les agences et instituts techniques tels que l’InVs (Institut de veille sanitaire), l’INCA (Institut national du cancer), l’ANRS (Agence de recherche nationale sur le SIDA), l’AFSSA (Agence française de sécurité sanitaire des aliments), les CPAM, etc.

La formation offre également des débouchés en direction des services statistiques des instituts de sondage ou de planification. Elle permet aussi de rejoindre des services statistiques plus généralistes comme les assurances, les  banques, les grandes entreprises ou PME de tous types qui sont confrontés au besoin d’analyse de grands jeux de données.

A la sortie du master, les étudiants savent utiliser des logiciels de statistique (R, SAS), de calcul (matlab), de bases de données (SQL).

Ils sont également préparés à leurs métiers futurs par une formation et la lecture d’articles scientifiques en anglais, ainsi que plusieurs évaluations par projets plutôt que par examens.

Candidatures

Vous trouverez sur la page des candidatures toutes les informations utiles.

M1 Semestre 1

Tests (MT1AM010)

Tests (MT1AM010)

cours: 15h TD: 15h 

Objectifs :

Présenter les principaux tests non paramétriques basés sur les rangs et les statistiques d’ordre.

Compétences acquises :

Statistiques de rang et d’ordre ; Construction de tests ; puissance d’un test ; Comparaison avec les tests paramétriques ; Capacité à comprendre/utiliser des tests non vus en cours (vu la très grande diversité des tests existants).

Programme:

– Vocabulaire et principe des tests – Etude d’un échantillon isolé (test du signe, des rangs signés, d’adéquation à une loi)- Comparaison de plusieurs échantillons (Wilcoxon-Mann-Whitney, Kruskal-Wallis, Friedman)- Problèmes à plusieurs variables (Spearman, Kendall, Khi-deux d’indépendance)- Gain de puissance à l’aide du bootstrap

Estimation (MT1AM020)

Estimation (MT1AM020)

cours: 15h TD: 15h 

Objectifs :

Bases des statistiques paramétriques.

Compétences acquises :

Lois classiques, estimation, intervalles de confiance, tests paramétriques.

Programme:

Chap.1 Introduction et rappels.- Lois classiques, discrètes et continues, calcul de lois- lois gaussiennes et associées (Student, Khi2, Fisher)- Convergences de suites de variables aléatoires : loi des grands nombres, Théorème Central LimiteChap.2 Méthodes d’estimation- Définitions générales : estimateur, consistance, biais, risque quadratique, limite en loi, intervalle de confiance- Méthodes de substitution : méthode des quantiles, méthode des moments.- Méthode du maximum de vraisemblance.Chap.3. Intervalles de confiance.Généralités et exemples.Chap.4. Tests paramétriques.- Définitions générales, hypothèses simples, complexes; zone de rejet, niveau, erreur de première et deuxième espèce, puissance, p-valeur.- Dualité intervalle de confiance-test- Tests pour deux échantillons gaussiens (égalité des variances, des moyennes à variances égales). 

 

Analyse de données 1 (MT1AM030)

Analyse de données 1 (MT1AM030)

cours: 15h TD: 15h 

Objectifs :

Ce cours comporte trois volets : un exposé théorique des méthodes utilisant les connaissances acquises en algèbre linéaire et bilinéaire ; une argumentation statistique à partir de petits exemples concrets, basée sur des résultats numériques et graphiques ; des études de cas avec mise en œuvre des méthodes sur des données réelles en vraie grandeur, et nécessitant un traitement informatique.

Compétences acquises :

Maîtrise des méthodes de régression linéaires, d’analyse en composantes principales et de classification sur des données réelles.

Programme:

Régression simple et multivariéeClassificationAnalyse en composantes principalesAnalyse des correspondances

Programmation (MT1AM040)

Programmation (MT1AM040)

cours: 15h TP: 15h 

Objectifs :

L’objectif de ce cours est de familiariser les étudiants avec la programmation et avec les logiciels de calcul scientifique.

Compétences acquises :

Connaître et maîtriser les structures basiques de la programmation (variables, scripts, boucles, récursivité) et les limites du calcul numérique. Etre capable de concevoir et de programmer des algorithmes simples dans un langage fonctionnel (par exemple Scilab, Matlab, Octave, R), afin de résoudre numériquement des problèmes de calcul scientifique et/ou de simuler des phénomènes concrets issus de différents domaines applicatifs (physique, biologie, etc.).

Programme:

Chaque séance donne lieu à l’implémentation d’algorithmes classiques d’analyse numérique. 1. Introduction2. Résolution de systèmes linéaires (Gram-Schmidt, décomposition LU)3. Traitement d’images (filtres et débruitage)4. Analyse de données (moindres carrés, K-means, RANSAC)5. Résolution d’équations non linéaires (dichotomie, Newton-Raphson)6. Simulations de phénomènes aléatoires

Bases de données (MT1AM050)

Bases de données (MT1AM050)

cours: 15h TD: 15h 

Objectifs :

Ce module à pour objectif de former les étudiants à l’utilisation et à la conception Bases de Données au sein d’un système d’information

Compétences acquises :

  • Savoir concevoir un modèle conceptuel de données à partir d’un cahier des charges§ Savoir utiliser une base de données à partir du langage SQL

Programme:

  • Objectifs des systèmes de gestion de données§ Notion de modèle de données, de langage de définition et de manipulation de données§ Conception d’un modèle conceptuel de données avec l’approche entité-association§ Modèle relationnel de données§ Algèbre relationnelle§ Dérivation d’un modèle conceptuel de données en un schéma de base de données relationnel§ Définition et manipulation des données en SQL§ Vérification des contraintes d’intégrité en SQL : clés, assertions, déclencheurs§ SQL embarqué§ Modèle relationnel de données enrichi par les dépendances fonctionnelles§ Gestion de la concurrence dans les systèmes de gestion de données : les transactions§ Définition et gestion des droits d’accès des utilisateurs en SQL
Épidémiologie (MT1AM060)

Épidémiologie (MT1AM060)

cours: 10h TD: 10h 

Programme :

Mesures d’association entre maladie et facteur de risque. – Intervalles de confiance pour Risques Relatifs et Odds Ratio. – Significativité dans les tables de contingences. – Les sources de biais en Épidémiologie. – Prise en compte des variables de confusions. – Modèles de régression pour mesurer l’association. – Données appariées. – Introduction à la causalité.

 

Propagation d’épidémies 1 (MT1AM070)

Propagation d’épidémies 1 (MT1AM070)

cours: 15h TD: 15h 

Programme :

– Modèles dynamiques déterministes de propagation des épidémies. 

– Modèles SIS, SIR, SIRS avec et sans effets démographiques. 

– Etude de systèmes différentiels non linéaires. 

– Recherche et nature de points d’équilibre, nature de ces points, interprétation épidémiologique.

-Stabilité locale, voire globale des points d’équilibre. Méthodes numériques. 

– Propriétés des schémas : consistance, stabilité, convergence. 

– Utilisation des fonctions de résolutions d’EDO de Scilab

Anglais (MT1AM080)

Anglais (MT1AM080)

cours: 18h

M1 Semestre 2 (Ingénierie Mathématiques et Biostatistique)

Classification (MT1BM010)

Classification (MT1BM010)

cours: 15h TD: 15h 

Objectifs :

Les méthodes de classification permettent de faire des partitions d’individus en groupes ayant un comportement similaire. Ce cours a pour objectif de présenter quelques-unes des principales méthodes de classification et de les mettre en œuvre sur des exemples concrets.

Compétences acquises :

L’étude théorique de différentes méthodes de classification et leur utilisation pratique sous le logiciel R.

Programme :

Classification non supervisée (Classification ascendante hiérarchique, Centres mobiles). Classification supervisée (Méthode CART, k plus proches voisins, Méthodes de rééchantillonnage (Validation croisée)).

Modèles linéaires (MT1BM020)

Modèles linéaires (MT1BM020)

Cours : 15h TD : 15h 

Objectifs :

Les modèles linéaires gaussiens permettent de rendre compte et d’analyser les relations qui peuvent exister entre plusieurs variables. Très utilisés en statistique, ils couvrent le champ de la régression linéaire et celui de l’analyse de la variance. Ce cours a pour objectif de présenter les principaux éléments de théorie résultant de l’étude des modèles linéaires gaussiens, tout en abordant de manière concrète les situations classiques qui justifient l’utilisation de ces modèles.

Compétences acquises :

L’étudiant acquerra les bases théoriques et un savoir-faire sur les modèles linéaires gaussiens. Un accent particulier sera mis sur les modèles de régression simple ou multiple et sur les modèles ANOVA d’analyse de la variance à un ou plusieurs facteurs.

Programme :

1) Introduction aux modèles linéaires gaussiens.

2) Modèles

3) Estimation

4) Tests

5) Sélection de modèles.

Séries temporelles (MT1BM030)

Séries temporelles (MT1BM030)

Cours : 15h TD: 15h 

Programme :

Processus du second ordre : vecteurs et processus gaussiens. – Processus 
stationnaire : fonction d’autocovariance, opérateur backward, filtrage linéaire, processus AR, MA, 
ARMA, prédiction linéaire, équations de Yule-Walker. – Représentation spectrale : séries de Fourier, densité spectrale, théorème d’Herglotz, filtrage et densité spectrale, existence de solutions pour les 
processus ARMA. – Estimation : estimation de la moyenne et de l’autocovariance 

Analyse de données 2 (MT1BM040)

Analyse de données 2 (MT1BM040)

Cours : 15h TD : 15h 

Objectifs :

Maitrise des outils de base de l’analyse de données

Programme :

Rappels sur l’analyse en composantes principales, analyse discriminante.

 

Big Data (MT1BM050)

Big Data (MT1BM050)

Cours : 15h TD: 15h

Statistiques pour la génétique et la génomique (MT1BM060)

Statistiques pour la génétique et la génomique (MT1BM060)

Cours : 15h TD : 15h 

Objectifs :

L’objectif de ce cours est de connaître les bases de la statistique génétique, qui cherche à établir des liens entre les génotypes et les phénotypes des individus, et notamment à déceler des marqueurs génétiques pour certaines maladies.

Compétences acquises :

Bases de la génétique, notion de distance génomique, locus, allèle, recombinaison ; Tests du caractère génétique d’une maladie ; Analyse de liaison ; Analyse d’association ; Utilisation de R pour des cas pratiques

Programme :

cf Compétences acquises.

Propagation d’épidémies 2 (MT1BM070)

Propagation d’épidémies 2 (MT1BM070)

Cours : 15h TD : 15h 

Programme :

– Modèles dynamiques déterministes de propagation des épidémies. 

– Modèles SIS, SIR, SIRS avec et sans effets démographiques. 

– Étude de systèmes différentiels non linéaires. 

– Recherche et nature de points d’équilibre, nature de ces points, interprétation épidémiologique.

-Stabilité locale, voire globale des points d’équilibre. Méthodes numériques. 

– Propriétés des schémas : consistance, stabilité, convergence. 

– Utilisation des fonctions de résolutions d’EDO de Scilab.

UE Préprofessionalisation
  • Étude de cas (MT1BM080)

cours: 15h TD: 15h 

Objectifs :

L’objectif de ce cours est de faire venir des professionnels de l’INSERM, L’INVS, l’INRA, … afin de leur permettre d’exposer une études qu’ils ont eu à mener, en partant du problème concret de départ, en passant par la modélisation et le traitement, pour arriver aux résultats pratiques après traitements des données.

Compétences acquises :

Apprendre à appréhender un problème concret sous sa forme brute, puis à le modéliser, le simplifier, afin de le traiter.

Programme :

*Chaque intervenant utilise entre deux et quatre séances de cours TD pour présenter les problèmes qu’il a rencontré et les étudier. Les intervenants et les domaines sont variables d’une année sur l’autre. Les étudiants peuvent ainsi mieux appréhender ce à quoi ils seront confrontés lors de leur stage de dernier semestre (semestre S4 du master IMSV).

  • Cap Emploi (MT2BX090)

Cours : 15h 

 

 

M2 Semestre 3 (Ingénierie Mathématiques et Biostatistique)

Apprentissage en grande dimension (MT1CM010)

Apprentissage en grande dimension (MT1CM010)

Cours : 15h TD : 15h 

Programme :

De nos jours, de nombreux jeux de données, que ce soit par exemple en biologie ou en image, font intervenir des centaines, milliers voire millions de variables. Les méthodes d’apprentissage et les statistiques sous-jacentes doivent être adaptées à ce phénomène, car les méthodes habituelles en petite dimension ne sont pas efficaces. Des choix doivent notamment être faits entre prédiction et sélection de variables. Les différentes méthodes abordées seront illustrées en TP.

1. Introduction : en quoi la grande dimension ne peut pas être traitée comme la petite dimension
2. Grande dimension et abondance de données : réseaux de neurones, deep learning
3. Grande dimension et peu de données : réduction de dimension (ACP, PLS)
4. Grande dimension et peu de données : méthodes de vraisemblance pénalisée (Ridge, Lasso, modèles graphiques gaussiens)

Algorithmes stochastiques (MT1CM020)

Algorithmes stochastiques (MT1CM020)

Cours : 15h TD : 15h 

Statistique non paramétrique (MT1CM030)

Statistique non paramétrique (MT1CM030)

Cours : 15h TD : 15h 

Objectifs :

L’objectif de ce cours est de présenter aux étudiants différentes méthodes d’estimation fonctionnelle. Ces méthodes peuvent être utilisées de façon autonome ou bien afin de permettre de choisir un modèle paramétrique plus simple et plus facile à présenter à des professionnels ou des médecins.

Programme :

Estimation d’une densité par méthode de projection (bases fonctionnelles orthonormées, construction de l’estimateur, étude du biais, de la variance, compromis par sélection de modèle, programmation) – Estimation d’une densité par méthode de noyau (noyau d’ordre quelconque, construction et étude de l’estimateur, compromis biais-variance par sélection de fenêtre, programmation). – Estimation d’une fonction de régression avec les deux méthodes : noyau et projection, étude et comparaison. – Applications en modèles de survie : estimation non paramétrique d’une densité, d’une fonction de risque instantané (hazard rate) dans le cas de modèle avec censure droite, d’une fonction de répartition en présence de censure par intervalle.

SAS (MT1CM040)

SAS (MT1CM040)

Cours : 15h TD : 15h 

Recueil de données (MT1CM050)

Recueil de données (MT1CM050)

Cours : 15h TD : 15h 

Projet tutoré (MT1CM080)

Projet tutoré (MT1CM080)

TD : 8h 

Objectifs :

Savoir lire un article (qui peut être en Anglais), et apprendre à en faire la synthèse écrite et à l’exposer en un temps assez court (10 mn). La compréhension repose sur une implémentation informatique. 

UE Ouverture, 2 ECUE à choisir parmi
  • Survie (MT1CM060)

Cours : 15h TD : 15h 

Objectifs :

Les objectifs de ce cours sont d’analyser des données issues d’une étude de survie, de savoir interpréter les résultats et de savoir discuter les hypothèses des différents modèles. Dans un premier temps, la modélisation des durées de survie via des approches non paramétriques sera étudiée. Dans un second temps, l’ajustement sur des covariables sera considéré via le modèle de régression semi-paramétrique de Cox. Les hypothèses de validité de ce modèle seront également discutées.

Compétences acquises :

L’étudiant sera capable de formuler un modèle susceptible de convenir à ses données, de comparer les survies observées sur plusieurs groupes et de mettre en place le modèle de Cox. Un accent particulier est mis sur l’’interprétation des résultats et la mise en pratique via le logiciel R de tels modèles.

Programme :

– Généralités, Fonctions de survie, Relation entre les diverses fonctions de survie, Censure à droite- Estimation nonparamétrique des quantités de base (l’estimateur de Kaplan-Meier de la fonction de survie, l’estimateur de Nelson-Aalen de la fonction de hasard cumulée,…)- Tests d’hypothèse concernant l’égalité de deux ou plusieurs courbes de survie- Modèles à hasards proportionnels  – Modèle de Cox, Vraisemblance conditionnelle de Cox,- Estimations et tests dans le modèle de Cox – Analyse des résidus et extensions possibles du modèle de Co

  • EDP et méthodes numériques (MT1CM070)

Cours : 15h TD : 15h

Objectifs :

Ce cours propose une introduction poussée, dans un cadre déterministe, à la modélisation, l’analyse et la simulation d’un système physique ou biologique. Souvent l’évolution d’un tel système se décrit à travers des équations différentielles ordinaires (EDOs) ou des équations aux dérivées partielles (EDPs). L’objectif est de présenter et d’étudier mathématiquement etnumériquement ces problèmes. Une partie du cours sera consacrée aux aspects de simulation numérique et à la comparaison entre les modèles et les données expérimentales.

Compétences acquises :

Maîtriser les concepts de base en modélisation, analyse et simulation. Capacité à mettre en œuvre sur ordinateur des modèles de type EDO ou EDP. Comprendre les difficultés liées à la calibration et la validation de tels modèles. Interpréter les résultats, si possible au regard de données disponibles.

Programme :

Rappels et compléments sur les EDOs. Applications en évolution des populations, étude de dynamiques complexes et influence des paramètres. Modèles déterministes par EDPs (équation de transport, équation de la chaleur). Méthodes de discrétisation et simulations numériques (différences finies). Système d’EDPs proies-prédateurs

  • Théorie des jeux (MB1CY010)

  • Économie de l’incertain (MT1CM100)

 

M2 Semestre 4 (Ingénierie mathématique et Biostatistique)

Stage M2 IM (MT1DM010)

Contact

M1Antoine MARCHINA
antoine.marchina@u-paris.fr
M2 : Anne SABOURIN
anne.sabourin@u-paris.fr