Analyse Des Donn Es 1
ANALYSE DES DONNÉES Boulahoual. adil@gmail. com 2013-2014 or 13 Sni* to View Le nombre d’années derreurs commises , L’âge du conducteur et le nombre d’accidents d’auto ; Le volume des ventes et les dépenses en publicité Le nombre d’heures d’études et les résultats aux examens ; Pr. BOULAHOUAL Adil 2 Existe-il une relation ou une dépendance entre les variables statistiques? Cette relation, si elle existe, est-elle linéaire ou non ? Si une dépendance linéaire existe, de quelle façon peut-on la traduire par une équation mathématique ? dépendante) dont on veut expliquer les aleurs et une ou plusieurs autres variables qui servent à cette explication (variables indépendantes) En d’autres termes, l’analyse de la régression permet d’étudier les variations de la variable dépendante en fonction des variations connues des variables indépendantes. 6 Le coût du loyer en fonction du nombre de pièces, du niveau d’étage dans l’immeuble, des services offerts Coût du loyer Nombre de pièces Services offerts (piscine, stationnement intérieur, etc. L’étage dans l’immeuble Une analyse de régression est : – dite simple si elle permet de prédire les valeurs ‘une variable dite dépendante (expliquée, endogène, Y) à partir des valeurs prises par une autre variable dite indépendante (exogène, explicative, X dite multiple si elle permet de prédire les valeurs d’une variable dite dé endante à partir des valeurs prises par plu ariables PAGF 13 BOULAHOUAL Adil 9 Exemple : Nuage de points ou diagramme de dispersion 10 Objectif de la représentation graphique du nuage de point Une fois la représentation graphique effectuée, il est facile de soupçonner l’existence d’une certaine relation entre les deux variables (caractères étudiés). Il faut maintenant chercher ? exprimer cette relation à l’aide d’une équation mathématique. Yûf(X) Nous essayerons de trouver la forme mathématique de la fonction Définition : Nous appelons régression linéaire l’ajustement d’une droite au nuage statistique d’une série de couples de données.
Ainsi, une régression linéaire simple va permettre de résumer, d’interpréter et de prévoir les variations d’un caractère dit dépendant en fonction d’un autre dit indépendant (X) nt une Y) L’équation estimée de la régression linéaire simple (droite de la régression estimée, modèle mpirique) peut être utilisée pour une estimation ponctuelle de la valeur moyenne de y pour une valeur particulière de x ou pour prévoir la valeur ponctuelle de y associée à une valeur particulière y-Clb00b1x de x y = Variable dépendante y A = valeur de prévision de y pour une valeur x; x = Variable indépendante ou explicative 14 Les différentes étapes d’une étude de régression Table de dessin / Théorie 1- Spécification du modèle Objectif de l’étude Détermination de n Méthode d’échantillonnage 2- Validation du modèle 3- Estimation des paramètres 3 d’études 1085 104 07 Bonnes réponses 1074 PAGF s 3 données ci-dessous, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés 23 Y i nxy iC]l 6670 0 5 30 c 40 no, 67 co, 67 6 3 C’est l’augmentation du volume des ventes (Y) pour une augmentation unitaire du coût en publicité (X) Dépenses en publicité 28 Interprétation des résultats et remarques… Rql : Le point de cordonnées (x , y ) se trouve sur la droite de régression. Rq2 : Cette relation linéaire entre X et Y est valide pour l’intervalle des valeurs de X considérée dans ‘énoncé, c’est-à-dire de 1 à 5,5. La droite de régression s’applique à l’intérieur de l’étendue des valeurs expérlmentales qui ont eté observées pour la variable explicative (X).
On devra donc éviter toute extrapolation en dehors de ce domaine à moins d’être certain que le phénomène se comporte de façon identique. 29 Rq3 : pour la valeur x = 3,5 (située entre 1 et 5,5), on peut utiliser la droite de régression pour calculer la valeur moyenne correspondante de Y Exemple : Estimation du volume des ventes moyen pour un coût de 3,5 millions de dollars en publicité hebdomadaire. 3 fonction de X, noté YX mesure la proportion de la variation de Y qui est expliquée par la régression ou qui est expliquée par la variable X au niveau de toute la population. 01 Le coefficient de détermination indique si le modèle lineaire défini colle aux données . 2 OYX En pratique est inconnu, car on ne possède pas d’information sur toute la population mais seulement sur un échantillon de taille n, alors on estimera CIYX à partir de l’échantillon variation expliquée r Clrtl variation totale 3 résidus 34 Cl y) yi 01 alors il existe une relation linéaire exacte entre X et Y Si rXY 0 0 alors soit que X et Y sont indépendantes, soit qu’il y a une dépendance non linéaire entre les deux variables Si rxy O ou rXY n 1 alors il existe une relation linéaire plus ou moins forte entre X et Y • Le coefficient de corrélation permet de voir s’il est facile d’approcher les données par une droite. 40 Toujours en utilisant l’exemple numérique de la publicité et les ventes d’autos, mesurez le degré de dépendance linéaire entre X et Y. Réponse Les dépenses en publicité et les ventes varient dans le même sens rXY Cl(x IO