item
‘analyse des items : indicateurs et applications Définition d’item . Il arrive fréquemment qu’un instrument dévaluation ou de mesure soit composé d’un certain nombre d' »éléments ». Dans le cas classique d’une épreuve de connaissance, il s’agira par exemple d’une série de questions permettant d’évaluer la maîtrise d’un sujet donné; dans le cas d’une échelle d’attitude ou de motivation, il peut s’agir d’une liste d’opinions par rapport auxquelles les perso daccord ou de désac technique chacun de s d’item.
Par extension, on util 3 Ripe View next page stent leur degré ejet. En langage é avec le terme pellation pour désigner les composantes d’autres types d’instruments: par exemple les questions d’un questionnaire, les aspects faisant l’objet d’une observation, etc. L’étude des qualités métriques ou techniques des items est une opération souvent essentielle, qui intervient soit dans la phase d’élaboration, soit après une première application de l’instrument.
On retiendra notamment que lorsque la démarche a pour but d’étudier les aptitudes, les compétences ou les connaissances, d’une population d’individus, on s’intéresse souvent à des caractéristiques telles que le degré de difficulté de chaque item, on pouvoir de discrimination ou la probabilité qu’une réponse correcte puisse être imputée au hasard (pseudo-chance).
Analyse des items Etude critique des items qui composent un instrument d’évaluati dévaluation ou de mesure pour -dentifier ceux dont les caractéristiques paraissent inadéquates ou qui présentent des défauts et des faiblesses techniques exigeant des modifications plus ou moins importantes.
Cette démarche intervient généralement après une première passation de l’instrument (passation-pilote ou passation « à blanc ») et concerne aussi bien le fond que la forme des items. Quant au fond, les problèmes qui peuvent se poser ont trait principalement à la validité de contenu (adéquation du contenu de l’item par rapport aux objectifs de la démarche).
Concernant la forme, en revanche, on considérera tout particulièrement la formulation même de l’item (clarté, précision, univocité de l’énoncé; pertinence ou plausibilité des distracteurs , etc. Par ailleurs, il existe des procédés statistiques qui permettent de calculer des indices dits de difficulté ou de discrimination ; d’évaluer la corrélation entre chaque item et l’ensemble du est; de vérifier quel est l’effet dû à l’item sur Il homogénéité de l’instrument.
Enfin, des analyses plus complexes peuvent également être envisagées en ayant recours à la théorie de la généralisabilité d’une part ( analyse de facettes ) ou à la théorie des réponses aux items d’autre part (calcul des paramètres de difficulté , de discrimination et de pseudo-chance Validité de contenu (d’un dispositif d’évaluation ou de mesure) Ce terme désigne l’aptitude d’un instrument d’évaluation ou de mesure à appréhender les aspects pour lesquels il a été conçu, et ceux-là seulement.
Ainsi par exemple, dans le cas d’une épreuve 20F 13 a été conçu, et ceux-là seulement. Ainsi par exemple, dans le cas d’une épreuve de connaissance ayant pour but de vérifier la maîtrise dans tel domaine d’apprentissage, il faut s’assurer que les items utilisés contribuent tous à évaluer un aspect significatif de ce domaine; en d’autres termes, qu’ils forment un échantillon représentatif de tous les auxquels on aurait théoriquement pu avoir recours pour réaliser une telle opération.
On veillera également à ce que ces items ne fassent pas appel à des caractéristiques que l’on souhaite explicitement ne pas olliciter (la capacité de mémorisation par exemple, dans une épreuve qui devrait évaluer l’aptitude à exercer un certain type de raisonnement). Le problème se pose d’ailleurs dans les mêmes termes pour d’autres types d’instruments, comme par exemple des échelles (d’aptitude, d’attitude, d’intérêt, de motivation), des questionnaires d’opinion ou des systèmes d’observation.
Pour vérifier dans quelle mesure cette condition est satisfaite, deux démarches sont souvent envisagées. Au moment de l’élaboration du dispositif on aura recours ? une tabledite de spécification, qui permet notamment d’identifier es différentes composantes du domaine considéré, d’en mettre en évidence la structure sous-jacente et d’assurer une correspondance aussi satisfaisante que possible entre les composantes du domaine et les composantes du dispositif utilisé.
Ensuite, lorsqu’une première version de l’instrument a été mise au point (et avant son utilisation effective), on demandera à des « experts » de se prononcer sur l’adéquation des élément 30F 13 son utilisation effective), on demandera à des « experts » de se prononcer sur l’adéquation des éléments qu’il comporte par rapport à l’objet (au domaine) que l’on souhaite étudier.
Sur un plan plus technique, on peut parfois calculer un coefficient de corrélation entre les résultats fournis par l’instrument et ceux d’un autre instrument, appliqué au même groupe d’individus, et dont la validité de contenu est préalablement reconnue (coefficient r de Bravais-pearson) . Distracteur Lorsque l’on rédige des questions fermées à choix multiple , l’énoncé de l’item est suivi par une série de réponses possibles, dont une est correcte et les autres ne le sont pas.
Les options de réponse incorrectes sont désignées par le terme de distracteurs. Si, dans le cadre dune épreuve de connaissance ou d’un test ‘aptitude par exemple, un item comporte k options de réponse (et donc k- 1 distracteurs), on souhaite en général que la proportion de choix dont fait l’objet chaque distracteur soit approximativement égale à [f / (k – où f est la proportion de réponses fausses à l’item considéré (par exemple 0. 36 si 36 % des personnes interrogées fournissent une réponse incorrecte).
Cette règle (tout comme la notion même de distracteur d’ailleurs) n’a évidemment aucun sens dans le cas d’items à choix multiple pour lesquels la distinction entre réponse correcte et réponses fausses ‘est pas pertinente (échelle de motivation ou questionnaire dopinion par exemple). Indice de difficulté (d’un item) Différentes procédures peuvent être utilisées pour exprimer le degré de difficulté d’un itemadm 4 3 degré de difficulté d’un itemadministré à un groupe ou à une population de référence.
Dans le cas d’items donnant lieu à une appréciation dichotomique du type juste – faux (et cotées O ou 1), la difficulté de l’item est exprimée par la proportion d’échecs (ou sa ‘facilité » par la proportion de réussites). Si on désigne par P l’indice de difficulté, on aura: ù ne désigne le nombre d’individus ayant échoué l’item et n le nombre total d’individu qui ont répondu à ce même item (réussites + échecs).. indice ainsi obtenu se situe entre O et 1, et l’item sera réputé d’autant plus difficile que la valeur de P est proche de 1 (Dans certains ouvrages, l’indice de difficulté est défini comme le rapport entre le nombre d’individus qui réussissent l’item et le nombre total d’individu. Sous cette forme, toutefois, son appellation n’est pas très appropriée, car il s’agit d’une mesure qui renseigne sur la « ‘facilité » plus que sur la difficulté de l’item).
Lorsque l’indice de difficulté est calculé sur des items à choix (deux ou plusieurs options de réponse dont une seulement est correcte), une correction est parfois introduite pour tenir compte du fait qu’une certaine proportion de réponses correctes peut être due au hasard. On calcule alors l’indice P’ (P corrigé) de la manière suivante: où P est la proportion d’échecs et k le nombre d’options de réponse (la réponse correcte + les distracteurs) prévues par l’item.
Cette correction n’est pas nécessaire pour comparer le niveau de difficulté d’items semblables; elle 3 orrection n’est pas nécessaire pour comparer le niveau de difficulté d’items semblables,’ elle est en revanche utile lorsque l’on souhaite comparer la difficulté d’items ne prévoyant pas tous le même nombre d’options de réponse. On retiendra également que l’indice P’ peut parfois assumer des valeurs négatives. Celles- ci seront alors remplacées par zéro (niveau de difficulté le plus faible).
Enfin, si la cotation de l’item prévoit un nombre de catégories supérieur à 2 (par exemple O- 1 -2 points sur une échelle supposée quantitative), on calcule l’indice de difficulté en ppliquant la formule ci-après, où m est la moyenne des scores sur l’item pour l’ensemble des individus et S max le score maximum possible (2 dans le cas qui vient d’être évoqué): Il est facile de constater que cet indice varie entre O et 1, la difficulté de l’item étant considérée d’autant plus élevée que sa valeur est proche de 1.
D’autres procédés reposant sur les mêmes principes sont parfois présentés dans la littérature. On retiendra également que la question relative à la difficulté des items est abordée à travers une approche mathématique plus complexe dans le cadre de a théorie des réponses aux items. ndice de discrimination (d’un item) Lorsqu’une démarche d’évaluation ou de mesure a pour but de différencier (distinguer) des individus ou des objets en fonction d’un critère donné (leur niveau de compétence, de maîtrise, d’attitude, de motivation, etc. , on a recours de préférence à des items qui possèdent un pouvoir de discrimination élevé (capacité à distinguer aussi clairement et aussi f 6 3 qui possèdent un pouvoir de discrimination élevé (capacité ? distinguer aussi clairement et aussi finement que possible les individus ou les objets en fonction du critère considéré).
Pour évaluer cette caractéristique des items on calcule généralement un indice dit précisément de discrimination (D). Cet indice est défini comme la différence entre la proportion de réussites ? l’item parmi les individus dont les résultats sont les plus élevés sur l’ensemble de l’épreuve (score total pour tous les items qui composent l’instrument) et la proportion de réussites chez les individus dont les résultats globaux sont les plus faibles.
Concrètement, on répartit l’ensemble des sujets (élèves par exemple) en trois groupes selon leur niveau de réussite sur ‘ensemble de l’épreuve: les 27 % dont les résultats sont les plus élevés (E), les 27 % dont les résultats sont les plus faibles (F) et les 46 % ayant des résultats intermédiaires. On considère ensuite les deux premiers groupes seulement (E et F) et on calcule pour chacun d’entre eux la proportion de réussites à l’item: proportion désignée respectivement par RE et par RF (dans chaque groupe, rapport entre le nombre d’individus qui réussissent l’item et le nombre total d’individus).
L’indice de discrimination est alors calculé de la manière suivante: Cet indice (qui varie théoriquement entre -1 et +1) indique dans uelle mesure l’item considéré est apte à discriminer les élèves de la même manière que le fait l’ensemble de l’épreuve. On considère donc que le pouvoir discriminatif de l’item est d’autant plus élevé que la valeur d On considère donc que le pouvoir discriminatif de l’item est d’autant plus élevé que la valeur de D est proche de 1.
D’autre part, une valeur négative de cet indice révèlerait l’existence d’une sorte d’anomalie, car l’item serait globalement mieux réussi par les sujets ayant les résultats les plus faibles sur l’ensemble du test que par les sujets qui présentent les résultats les plus élevés. Un autre indice qui permet parfois d’évaluer la capacité de l’item à différencier les individus est l’écart-type : une valeur nulle de l’écart-type indique en effet que tous les individus obtiennent exactement le même résultat, tandis que le pouvoir de différenciation est d’autant plus élevé que la valeur de cet indice augmente.
La valeur maximale de l’écart-type dépend notamment de l’étendue de l’échelle. Dans le cas d’un dichotomique (réussite ou échec avec la cotation 1 ou O) l’écart- type varie entre O (même résultat pour tous) et 0. 5 (autant de réussites que d’échecs). Dans certains cas, le pouvoir discriminatif d’un item peut également être estimé en ayant recours à des méthodes corrélationnelles, différentes selon le type d’échelle que l’item définit: dichotomique, dichotomisée ou « continue ».
On retiendra enfin que la question relative au pouvoir de discrimination des items est abordée à travers une approche mathématique plus complexe dans le cadre de la théorie des réponses aux items. Théorie de la généralisabilité (GT) Modèle statistique élaboré à partir du début des années 70, et considérablement enrichi par la suite, qui a pour but d’évaluer la fiabilité d’un dispo B3