--

Qu’est-ce qu’un échantillon représentatif ?

Cette question revient régulièrement dans les échanges pénombriens. On va essayer d’y répondre rapidement ici, sans aborder la question de la supériorité de telle ou telle méthode sur les autres. Pour aller vite, on dira que, pour un sondage marketing ou d’opinion, on attend de l’échantillon qu’il fournisse des résultats aussi proches que possible de ceux qui auraient été obtenus si toute la population dont il est tiré avait été interrogée. De façon générale, la représentativité est affirmée par ceux qui réalisent le sondage. Cette déclaration n’est d’ailleurs pratiquement jamais discutée (même lorsque les résultats soulèvent des doutes). De quoi parle-t-on alors ?

Dans les échantillons aléatoires, chaque individu de la population mère a une même probabilité de figurer dans l’échantillon. L’échantillonnage par tirage au sort est le modèle d’échantillonnage présumé idéal : sa représentativité est présumée, mais elle n’a de sens que dans la mesure où la taille de l’échantillon est compatible avec le niveau d’erreur acceptable ou accepté. Autrement dit, le tirage au sort n’est pas à lui seul garant de la représentativité (quid d’un échantillon de 50 électeurs tirés au hasard sur les listes électorales ?), il n’en est pas une condition suffisante, ni peut-être, compte tenu de l’objectif mentionné au second alinéa, une condition nécessaire.

Dans les échantillons empiriques, on va construire un échantillon de structure comparable à celle de la population mère dont on connaît certains éléments structurels. La représentativité n’est plus statistique mais structurelle, l’échantillon correspondant alors à une maquette, un modèle réduit, de la population étudiée. La méthode des quotas largement utilisée par les instituts de sondage français se réfère ainsi le plus souvent aux caractéristiques socio-économiques de la population française âgée de 15 ans et plus : sexe, âge, PCS (professions et catégories socioprofessionnelles) du chef de ménage ou, parfois, de l’individu, catégorie d’agglomération, région géographique, mais aussi d’autres critères jugés pertinents en fonction du sujet de l’étude : nombre de personnes au foyer, formation… Ces échantillons construits empiriquement sont dits « raisonnés ». Leur efficacité est attestée au quotidien, dans la mesure notamment où différents renseignements recueillis, autres que les renseignements signalétiques que constituent les quotas, peuvent être confrontés à des données connues au niveau de l’ensemble de la population (taux de possession de différents équipements, par exemple).

Cette représentativité structurelle, assise sur des critères objectifs, présente pourtant des limites. Notamment, même si les quotas sont parfaitement respectés, leur combinatoire (sexe x âge x PCS x…) peut s’écarter significativement de celle de la population mère et, parfois, frôler l’absurde (je me souviens d’une « queue de quotas » dans une enquête sur la lecture de magazines, nécessitant de trouver sur une zone géographique réduite un foyer d’au moins 8 personnes, avec un chef de famille femme de moins de 45 ans : l’enquêteur avait finalement déniché un refuge avec une famille d’une quinzaine de membres - mère, enfants, cousins… - et dont le père était en prison, la plupart ne sachant pas lire, mais dont les caractéristiques satisfaisaient rigoureusement aux quotas résiduels).

De plus en plus, les études montrent que les tris courants (ventilation des résultats suivant les différents critères que constituent les quotas) se révèlent souvent assez pauvres alors que les différences étaient jadis significatives. Ces caractéristiques vieillissent dans l’utilisation qui en est faite et devraient sans doute être renouvelées pour « coller » aux évolutions, encore faudrait-il disposer d’autres critères signifiants au niveau de l’ensemble de la population pour en changer.

Dans un tout autre domaine, on retrouve cette obsolescence des critères : la représentativité des syndicats a été définie par la loi du 11 février 1950 sur les conventions collectives. Son article 31f. dispose que la représentativité est déterminée en fonction des critères d’effectifs, d’indépendance, de cotisations, d’expérience et d’ancienneté du syndicat et de l’attitude patriotique pendant l’Occupation. Ces critères, toujours en vigueur, constituent l’article L.133-2 du Code du travail. Pour autant, la représentation syndicale en France est figée par un décret de 1966 et la « présomption irréfragable » de cinq confédérations, alors que, depuis, la situation a changé et que de nouveaux syndicats sont apparus.

Daniel Cote-Colisson

Ndrs : voir la réaction de Bruno Aubusson de Cavarlay.