Mode lisation Statistique R
imbUE11 Biomédecine quantitative Pr Matthieu Resche-rigon Le jeudi 22 janvier à 13h30 Ronéotypeur : Marie RIANT Ronéolecteur : Audrey MILLOT cours nol – L’El 1 Modélisation statistique Il faut apporter une calculatrice scientifique (pour les log et exp) aux eds et en partiel ! Le cours est complex à apprendre et à sav sont « simples » soit sera comme les eds, moment quelles son ap or 13 to View nextggge ormules qui sont soit t horribles (le partiel mportantes).
Le prof insiste sur le fait de s’inscrire sur le cours de didel car les infos seront transmises par ce biais et les diapos isponibles avant les cours magistraux pour qu’on puisse les lires et/ou les imprimer avant (ou pas 😉 ). On pourra aussi retrouver les polys de Paces (youpidou ! ) parce que les cours de Pl sont considérés comme acquis même s’il y a quelques rappels dans ce cours. On aura besoin de cette matière, qu’on aura aussi les prochaines années, pour la CCA (lecture critique d’article).
Ronéo n 01 – cours nol IJEII sur 10 Sommaire I Rappels B) Régression linéaire Ill Régression logistique IV Modèle multiple A) Modèle linéaire multiple B) Modèle logistique multiple V Bonus sur les tests Ronéo nol – Cours no 1 LJEII 2 sur 10 Rappels A. Variables aléatoires On utilise la modélisation pour décrire de la façon la plus proche (mais jamais parfaite donc tous les modèles sont faux) le monde réel de façon à pouvoir y appliquer des outils mathématiques.
Ceci a pour but, soit, d’analyser et de décrire la situation, soit, de prédire des évènements. Une variable aléatoire est une grandeur numérique résultant d’une expérience aléatoire. On la note X et on cherche à l’estimer au mieux dans les modélisations. On note x pour un résultat mesuré de la grandeur représentée par la variable X. On distingue plusieurs types de variables • 3 d’enfants, nombre de métastases… Si on parle en moyenne ces variables deviennent continues, de même le côté continu ou discret tiens surtout de la précision de la mesure et donc du contexte) La répartition de la variable aléatoire, X, dans la population est caractérisée par une loi de probabilité qui peut être : Connue (approximée) et résumée par paramètres (de position : moyenne = esperance ou de dispersion : variance) Inconnue (totalement ou partiellement : la forme est connue mais pas ses paramètres) -La probabilité qu’une variable continue prenne une valeur précise est nulle La fonction de répartition est la fonction qui à toute valeur associe la probabilité que le tirage prenne la valeur ou une inférieure, elle varie donc entre O et 1 et est croissante – L’espérance est la moyenne (donc la somme des résultats divisée par le nombre de résu tats) on peut faire les calculs de on veut voir quelle sera la variance de mesure de pression artérielle par exemple : la variance due à l’appareil de mesure et celle due à l’opérateur sont Indépendantes, on va donc juste les additionner pour avoir la variance totale) Probabilités densités Fonctions de répartitions B) Médiane et quantiles
La médiane partage la distribution en deux aires de même taille (autrement dit il y a autant de valeurs de par et d’autre de la médiane) P(X percentile : percentile est la valeur telle que percentile)= p (on utilise beaucoup les percentiles suivants : 2,5 ; 5 ; IO ; 25 ou QI ou premier quartile ; 50 ou médiane ; 75 ou Q2 ou troisième quartile ; 90 ; 95 ; 97,5) Par exemple, pour les courbes poids/taille sur le carnet de naissance, on se sert des 25ème et 97,5ème percentile (ou noté + ou – 2DS) (cependant, + ou — IDS ne correspond pas aux quartiles) pour savoir si on sort de la normalité. Attention : Il faut omprendre que cela ne signe pas une pathologie mais que c’est uniquement un signal d’alerte. C) Principales lois Lois discrètes 3 expérience de Bernoulli de probabilité p, on a E(X)=np et -p) – Loi de Poisson : paramètre À (utilisée pour estimer un nombre de quelque chose par unité de temps, de surface ou de volume et qui n’a pas de maximum fixe, comme le nombre de patients aux urgences sur une durée ou le nombre de colonies sur une boite de pétri) Cl Lois continues – Loi uniforme : X appartient à [a;b] et E(X)=(a+b)/2 (loi très peu utile en médecine) Ronéo no 1 – Cours no 1 IJEII 4 sur IO
Loi exponentielle • paramètre X et /À2 (loi très utile pour les courbes de survie ou en médecine nucléaire pour les désintégrations radioactives) Loi Normale (ou de Gauss) : paramètre p (espérance) et 02 (variance) (très très utilisée, d’autant plus que, grâce au Théorème Limite Centrale, on peut approximer par une loi Normale, une loi Mn=xti/n, c’est-à-dire une moyenne, SI n, le nombre de répétitions est suffisamment grand, elle aura comme paramètres p pour l’espérance et a2/n pour le variance) D) Les statistiques inférentielles et estimation Le but de ces statistiques est de décrire ou de prévoir le monde éel via des variables aléatoires et la formulation de loi de probabilités. Pour cela on recherche donc à estimer les param PAGF s 3 grecques pour les vrais paramètres dans la population et lettres françaises pour l’estimation faite à partir de Péchantillon On va plus souvent faire des intervalles de confiance en médecine car on cherche généralement à étendre les resultats d’une étude sur un échantillon à la population générale.
L’intervalle de pari (à 95%) signifie qu’on connait la valeur d’un paramètre dans la population et qu’on a 95% de chance que le paramètre que l’on mesurera dans ‘échantillon appartienne ? l’intervalle que l’on a donné. L’intervalle de confiance (à 95%) signifie que l’on a mesuré un paramètre dans un échantillon et qu’on a de chance que le vrai paramètre de la population soit dans l’intervalle que l’on a donné. On le présente souvent sous la forme T ± A ou T est l’estimation ponctuelle du paramètre et A est l’écart entre la moyenne de l’estimation et la limite de l’intervalle. Plus A est grand plus moins l’estimation est précise. une valeur dans une étude sans intervalle de confiance n’a aucun intérêt.
L’intervalle à 95% pour un 6 3 est [-20;+20] et est centré ype s/Vn) ou pour un pourcentage p : IC95% z p ± 2 -p)Nn Ronéo no I – cours nol l’Eli 5 sur 10 Il) Modélisation linéaire Son but est l’analyse de liaison entre deux variables quantitatives, par exemple entre le poids et la taille. Pour cela : on prend un échantillon, on fait deux mesures sur chaque élément et on obtient une série de doubles mesures a priori indépendantes (selon l’hypothèse HO) : (XI;YI); (Xn;Yn) et on cherche à savolr si X et Y sont liées. (XZY2),… Ily a deux situations en fonction de la question qu’on pose : on recherche une symétrie entre X et Y : on veut savoir s’il y a une corrélation entre ces eux valeurs à priori indépendantes.
On recherche une asymétrie entre X et Y, c’est-à-dire qu’on va essayer de prédire l’une en fonction de l’autre. On va utiliser pour cela une régression linéaire. On a donc une variable à expliquer ou variable réponse par convention Y et une variable explicative par convention X A) Corrélation L’objectif va être de calculer un coefficient de corrélation (soit de Pearson soit de Spearman) et en fonction de sa valeur et de son intervalle de confiance, on va pouvoir estimer une plus ou moins forte corrélation ou rester sur l’hypothèse que les variables sont indépendantes. ) Le coefficient de Pearso 7 3 corrélation linéaire sinon ce coefficient n’a pas de sens.
On définie donc p, la vraie valeur du coefficient de Pearson et r son estimation dans l’échantillon qui doit donc toujours être accompagné de son intervalle de confiance pour apprécier sa précision et donc sa fiabilité. p et r sont compris entre -1 Si pel ou p- -1, on a une relation linéaire parfaite entre X et Y : le tracé de Y en fonction de X donne des points alignés (b et d) Si p=O, on n’a pas d’association linéaire (e) (attention on peut avoir un autre type de liaison, ex : parabolique (f)) pz est la proportion de variance de ‘explique par la variabilité de X. On note aussi que p mesure le fait que les points soient alignés mais pas la pente de la droite, donc, on ne peut pas quantifier l’impact des paramètres les uns sur les autres.
Ronéo n 1 -cours UEII 6 sur 10 On fait ensuite un interva PAGF 13 e autour de la mesure de monotone (croissante ou décroissante) (donc les relations de types paraboliques ne seront toujours pas concernées) On va trouver une estimation du coefficient avec des différences entre les rangs de W et Y pour une même observation (pas très important selon le prof). Même interprétation avec intervalle de confiance que le oefficient de Pearson. Lorsque l’on veut prédire une variable avec une autre : Y est la variable dépendante ou expliquée et X est la variable indépendante ou explicative. On cherche les coefficients a et d’une fonction affine tel que mais Y * a+PX.
Le modèle linéaire donne : a+PX+E où est une variable aléatoire d’espérance nulle qu représente l’erreur résiduelle du modèle (en pratique on suppose que ) Pour déterminer a et p, on utilise la méthode des moindres carrés, c’est-à-dire que l’on va choisir la droite pour laquelle chaque point est le plus proche possible : on additionne donc es distances (au carré pour avoir des nombres positifs) de chaque point à la droite potentielle et on choisit la droite pour laquelle cette somme est minimale. II existe une formule exacte qui n’est pas à savoir (voir diapo si intéréssé). On va calculer un intervalle de confiance ? 95%. (SI on nous demande si les résultats sont bons et qu’il n’y a pas d’intervalle faux) On parle de modèle additif car l’effet de X sur Y est additif (augmenter de 1 X revi parle de modèle additif car l’effet de X sur Y est additif (augmenter de 1 X revient ? augmenter Y de P) Ronéo no 1 – Cours no 1 1.
JEII 7 sur IO Ill) Régression logistique En fait, la régression linéaire est rarement utilisée (sauf pour démontrer que la taille des pieds n’est pas prédictive de celle du pénis -true story) parce que Y est souvent une variable quantitative discrète binaire (atteint ou non, décès ou non… ) et non continue… Du coup, on va utiliser la régression logistique ! On a IX) qui est une probabilité donc comprise entre O et 1 donc pas de modèle linéaire possible directement transformer l’intervalle de [O ; 1] en intervalle de Fonction p/(l -p) Fonction Logit Fonction logistique Définie sur [0 [ Définie sur [O ; Définie sur Fonction inverse de la Logit F(X) = +exp(X)]