Procédures de sélection

Le groupe d’experts a convenu que les matériels couvriraient à ce stade les cinq mêmes langues que celles couvertes dans le CD-ROM publié en 2005.

Critères

Les critères retenus pour la collection et la sélection des items et des tâches étaient les suivants:

Ouverture – La conduite et le compte-rendu du projet seront transparents ;
Inclusion – Toutes les institutions souhaitant participer au projet seront autorisées à apporter une contribution ;
Qualité – Seuls seront sélectionnés des matériels dont la qualité est attestée ;
Equilibre – Les matériels sélectionnés seront représentatifs de l’ensemble des types et formats pertinents d’évaluation de la compréhension de l’oral et de l’écrit ;
Pertinence et utilité – Les matériels sélectionnés seront pertinents pour plusieurs acteurs intéressés par une évaluation de la compréhension de l’oral et de l’écrit de qualité.

Matériels et documentation

Le Conseil de l’Europe a invité les institutions disposant d’une expertise reconnue dans l’exercice qui consiste à relier les examens de langue au CECR à participer à la collecte d’items et de tâches pour la compréhension de l’écrit et de l’oral. Il a ainsi été demandé aux institutions participantes de fournir les informations et matériels suivants :

une brève description générale du test/de l’examen ;
des tâches/items pour la compréhension de l’écrit/de l’oral (y compris des fichiers audio) à mettre à la disposition du public ;
une description des tâches/items soumis (description du contenu, informations statistiques, niveau du CECR ciblé, ...) ;
une copie d’un examen complet de compréhension de l’écrit/de l’oral, plaçant ainsi les tâches soumises en contexte ;
une brève description du processus de calibrage par rapport au CECR, et toute documentation complémentaire jugée utile.

L’appel à contributions a suscité un nombre de réponses bien supérieur à l’appel lancé en 2005. Le groupe d’experts a évalué les candidatures, et la sélection finale a été effectuée sur la base non seulement de la qualité, mais aussi de la représentativité et de la variété des formats, en tenant compte également des différentes approches dans la mise en œuvre des caractéristiques des constructs de la compréhension de l’écrit et de l’oral tels que définis dans la littérature pertinente et dans le CECR

Qualité des tâches illustratives

Il a été demandé aux institutions participantes de fournir les résultats d’analyse des données en tant qu’éléments de preuve de la validité dans le processus de sélection pour pouvoir vérifier que les items fonctionnaient et étaient adaptés à leurs groupes cibles. Les données psychométriques associées à chaque item ont été attentivement examinées, et tous les items sélectionnés respectent les normes généralement mentionnées dans la littérature professionnelle. A l’issue d’une longue discussion, il a toutefois été décidé de ne pas publier ces indices et leurs valeurs pour les raisons suivantes :

Il peut être trompeur d’utiliser ces valeurs brutes en tant qu’indicateurs des niveaux des items sans décrire ni prendre en compte les populations cibles de façon détaillée ;
Etant donné que le calibrage des items n’est valide que pour des échantillons de population spécifiques (en termes de compétences, profils cognitifs, origines culturelles et linguistiques…), le manque de savoir-faire approprié dans le domaine de la psychométrie peut donner naissance à des pratiques discutables dans l’utilisation des données ;
La psychométrie joue un rôle important dans la détermination de la validité d’un item, même si d’autres facteurs entrent en jeu à cet égard. Elle permet d’apporter des preuves et des arguments en faveur de la qualité, de la fiabilité et de la validité d’un item. Les items ne sont valides que lorsqu’ils sont bien écrits, que leur contenu est approprié et qu’ils sont destinés à un contexte spécifique, à une population bien définie et à des usages précis. Les items ainsi sélectionnés sont considérés comme valides et peuvent être utilisés dans les contextes spécifiques des utilisateurs, mais les données statistiques qui y sont associées peuvent varier légèrement (voire radicalement – même si c’est rare) dans un autre contexte, selon le degré de similarité entre la population cible d’origine (lors du calibrage) et le nouveau contexte ;
La difficulté d’un item est un concept complexe, difficilement prévisible. Elle est liée aux tâches, aux caractéristiques des candidats et aux interactions entre elles. Par conséquent, elle est de nature probabiliste, et non déterministe ;
Cependant, comme mentionné dans l’introduction, les matériels dont il est question peuvent être utiles à une grande diversité d’utilisateurs, des enseignants de langue aux responsables politiques. Les items sélectionnés sont conformes aux exigences de la littérature contemporaine et de l’expertise professionnelle concernant l’établissement de liens avec les niveaux du CECR ;
Si un sous-ensemble de ces items est utilisé en tant que composante d’un instrument plus large pour contribuer à « ancrer » un test, les valeurs statistiques associées aux items utilisés peuvent être considérées comme des indices statistiques reflétant approximativement leur correspondance avec les niveaux du CECR ;
La sélection d’items devrait donner aux utilisateurs une bonne idée du type d’items bien conçus que les chercheurs, les professionnels de l’évaluation et les organismes de certification identifient comme permettant d’établir des liens avec les niveaux A1, A2, B1, B2, et C1.
Cependant, il faut bien garder à l’esprit que cette sélection se veut un outil de référence, pas un outil pour ancrer un test/examen précis ou le relier au CECR. Pour relier un test/examen et calibrer différentes versions de celui-ci au CECR, il est toujours nécessaire de suivre un ensemble de procédures bien précises et attestées telles que définies dans la littérature professionnelle relative à l’alignement, au calibrage et à l’établissement de liens et de standards (pour des ouvrages de références, voir la bibliographie), en particulier le Manuel pour relier les examens de langues au CECR (2009).

Observations sur le matériel reçu

En travaillant sur le matériel reçu, le groupe d’experts a observé quelques tendances présentées brièvement ci-après et appelant des recherches approfondies.

L’analyse des tâches et de la documentation connexe a révélé une représentation variée du niveau visé du CECR dans son ensemble, plutôt que – comme prévu – des exemples au niveau intermédiaire. En conséquence, les items présentés à chaque niveau du CECR peuvent être considérés comme de bons exemples du niveau concerné mais non équivalents dans leur représentation du construct.
Si l’on observe un degré important de similitudes dans le matériel, on note aussi quelques variations selon les langues et les institutions participantes. Par exemple, les institutions privilégient parfois, dans une certaine mesure, tel format de test par rapport à tel autre. Il serait intéressant de se pencher sur le sujet : quelles variations observe-t-on selon les langues et dans les différents cadres de fonctionnement, et quelles seraient les raisons à cela ?
Un éventail de formats est utilisé fréquemment pour les tests : QCM, exercices d’appariements multiples, réorganisation d’unités de texte et réponses courtes. Le format Vrai-Faux (et Vrai-Faux-On ne sait pas) est moins courant.
L’inclusion d’items évaluant les connaissances lexicales et grammaticales est aussi assez fréquente, sachant que ces items ne sont pas inclus généralement dans le corpus dans la mesure où ils sont interprétés mais pas pour évaluer la compréhension d’unités de sens plus grandes.
En règle générale, 3 ou 4 options sont proposées dans les items à choix multiple.
Comme on peut s’y attendre, les énoncés (pour l’écrit comme pour l’oral) sont plus courts et moins complexes aux niveaux les plus bas du CECR.
Des images, illustrations et graphiques sont utilisés assez souvent et sont plus courants aux niveaux les plus bas du CECR.
Dans la plupart des cas, seule la langue cible est utilisée dans les groupes d’items, y compris les consignes. Quelques exceptions ont été relevées cependant aux niveaux les plus bas.
Des différences ont été observées dans la réalisation des tâches relatives à l’oral quant à la façon dont les consignes sont données (lire d’abord les questions, présenter toutes les questions après l’ensemble du texte ou les distribuer après des passages, jouer le script une fois ou deux, vitesse de réalisation, variété d’accents, etc.).
Le matériel ne contient pas d’exemples pour le niveau C2, et ce principalement pour deux raisons : 1) les échantillons présentés étaient relativement peu nombreux et le choix était par conséquent limité ; 2) la différence entre les tâches/items des niveaux C1 et C2 n’apparaissait pas toujours très clairement. Il serait judicieux de faire plus d’efforts pour composer des tâches et items de niveau C2, et il serait utile de s’employer à distinguer plus clairement les niveaux C1 et C2.